Информации. Кодирование символьных, графических и звуковых данных. Структуры данных

Лекция 3. Формулы Шеннона и Хартли. Расчёт количества

Информации. Кодирование символьных, графических и звуковых данных. Структуры данных

Формула Шеннона

H = F(N, P) Расчет энтропии в этом случае производится по формуле Шеннона, предложенной им…

Log22 / log102 = 1 / 0,301= 3,32

Основные свойства логарифмов:

log(ab) = b*log(a)

log(a*b) = log(a) + log(b)

log(a/b) = log(a) - log(b)

log(1/а) = 0 - log(а) = -log(а)

Отсюда знак минус в формуле Шеннона не означает, что энтропия – отрицательная величина. Объясняется это тем, что вероятность pi =< 1по определению, а логарифм числа меньшего единицы - величина отрицательная.

По свойству логарифма , и формулу Шеннона также можно записать и во втором варианте - без минуса перед знаком суммы.

При этом интерпретируется как частное количество информации, получаемое в случае реализации i-ого случайного варианта.

Итак, следует сделать вывод, что энтропию по формуле Шеннона можно считать средней характеристикой – математическим ожиданием распределения случайной величины {I0, I1,… IN-1}.

Пример расчета энтропии по формуле Шеннона: если известно, что мужчин и женщин в учреждении одинаково (два равновероятных варианта), тогда неопределенность, кого вы встретите первым, зайдя в учреждение, составит 1 бит. Проверка этого предположения проведена в таблице 1.

Таблица 1

  pi 1/pi Ii=log2(1/pi), бит pi*log2(1/pi), бит
Ж 1/2 log2(2)=1 1/2 * 1=1/2
М 1/2 log2(2)=1 1/2 * 1=1/2
å     H = 1 бит

Если же в учреждении состав работников распределяется, как: ¾ - женщины, ¼ - мужчины, тогда неопределенность относительно того, кого вы встретите первым, зайдя в учреждение, будет рассчитана рядом действий, показанных в табл. 2.

Таблица 2

  pi 1/pi Ii=log2(1/pi), бит pi*log2(1/pi), бит
Ж 3/4 4/3 log2(4/3) = 0,42 3/4 * 0,42 = 0,31
М 1/4 4/1 log2(4) = 2 1/4 * 2 = 0,5
å     H = 0,81 бит

Как видно, энтропия во втором случае, а, следовательно, и количество информации, получаемой при полном снятии неопределённости, несколько меньше, чем в первом случае, так как вероятность встретить женщину преобладает, и ясно, что скорее вы встретите женщину, чем мужчину.

Формула Хартли

Подставив в формулу Шеннона вместо pi его (в равновероятном случае не зависящее от i) значение pi = 1/N, получим: , таким образом, формула Хартли выглядит очень просто:

I = log2(8) = 3 бита

Количество информации, получаемой в сообщении

Но в общем случае неопределенность может быть снята только частично, поэтому количество информации (I), получаемой из некоторого сообщения,… Для равновероятного случая, используя для расчета информации формулу Хартли, получим:

Кодирование символьных (текстовых и числовых) данных

Для латинской раскладки клавиатуры применяется единая кодировочная таблица во всех странах, поэтому текст, набранный с использованием латинской… Эта кодировочная носит название ASCII. Код ASCII - American Standard Code for Information Interchange - (стандартный код информационного обмена США…

Кодирование графических данных

Изображение, состоящее из отдельных точек, каждая из которых имеет свой цвет, называется растровым изображением. Минимальный элемент такого… Все объекты окружающего мира можно разделить на: излучающие (источники света:… В зависимости от того, является объект излучающим или отражающим свет, для описания его цвета в виде числового кода…

Кодирование звуковых данных

Звуковая информация в двоичном коде представляется с помощью различных кор­поративных стандартов (форматов). Формат WAV использует дискретизацию 22 кГц и 8-разрядную запись. Разрядность… В современных преобразователях принято использовать 20-битное кодирование амплитуды сигналов, что позволяет получать…

Структуры данных

- линейная (или список), в которой адрес элемента задается его уникальным номером, в частности, номером строки. Т. е., уже в линейной структуре… - табличная (матрица) — элемент определяется адресом ячейки - номером каждого… - иерархическая - адрес каждого элемента определяется путем доступа (маршрутом), ведущим от вершины структуры к…

МВ (мегабайт) =1024 KB = 220 В

GB (гигабайт) = 1024 MB = 230 В

ТВ (терабайт) = 1024 GB = 240 В

PВ (петабайт) = 1024 TB = 250 В

Файл - это последовательность произвольного числа байтов, обладающая собственным именем.

Полное имя файла - это собственное имя с путем доступа к файлу и расширением файла, определяющим его формат.

Оно является уникальным, т. е. на одном компьютере не может быть не может быть 2-х файлов с одинаковыми полными именами.

Регистр символов в полном имени значения не имеет.

В интернететакже не может быть 2-х файлов с одинаковымиполными именами, при этом полное имя входит уникальный адрес компьютера. Для интернета регистр символов в полном имени файла может иметь значение

ИТОГИ

2. Данные различаются типами в соответствии с физической природой сигналов (аналоговые и дискретные).

3. С целью унификации приемов и методов работы с данными в вычислительной технике применяется универсальная система кодирования данных - двоичный код, элементарной единицей которого является 1 бит.

4. Наименьшей единицей измерения данных является 8-ми разрядное двоичное число - 1 байт.

5. Основной единицей хранения данных является файл. Полное имя файла, включающее собственное имя файла, путь доступа к нему и расширение файла, является уникальным.

6. Для удобства работы с данными их структурируют (структуры: линейная, табличная и иерархическая различаются методом адресации). При сохранении данных в структуре возникают данные нового типа - адресные.