Единицы измерения и хранения данных

В информатике, как правило, измерению подвергается информация, представленная дискретным сигналом. При этом различают следующие подходы к оценке информации.

1. Структурный подход. Измеряет количество информации простым подсчетом информационных элементов, составляющих сообщение. Применяется для оценки возможностей запоминающих устройств или объемов передаваемых сообщений.

2. Статистический подход. Учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось. Применяется при оценке значимости получаемой информации.

3. Семантический подход. Учитывает целесообразность и полезность информации. Применяется при оценке эффективности получаемой информации и ее соответствия реальности.

На практике чаще используется структурный подход. При этом наименьшей единицей представления информации является бит (bit - binary digit), который может принимать только два значения (0/1 или да/нет).

Наименьшей единицей измерения является байт, поскольку одним байтом, как правило, кодируется один символ текстовой информации.

Более крупная единица измерения - килобайт (Кбайт). В килобайтах измеряют сравнительно небольшие объемы данных. Условно можно считать, что одна страница неформатированного машинописного текста составляет около 2 Кбайт.

Более крупные единицы измерения данных образуются добавлением префиксов мега, гига, тера.

1 Мбайт = 1024 Кбайт = 1020 байт

1 Гбайт = 1024 Мбайт = 1030 байт

1 Тбайт = 1024 Гбайт = 1040 байт

При хранении данных решаются две проблемы: как сохранить данные в наиболее компактном виде и как обеспечить к ним удобный и быстрый доступ. В качестве единицы хранения данных принят объект переменной длины, называемый файлом.

Файл — это последовательность произвольного числа байтов, обладающая уникальным собственным именем. Обычно в отдельном файле хранят данные, относящиеся к одному типу. В этом случае тип данных определяет тип файла.

Энтропия - мера измерения недостающей информации.

Энтропия (информационная) — мера хаотичности информации, неопределённость появления какого-либо символа первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на символ передаваемого сообщения.

Информационная энтропия для независимых случайных событий X с N возможными состояниями (от 1 до N) рассчитывается по формуле:

,

где Х – дискретная случайная величина с диапазоном изменчивости N,

P(Xi) – вероятность i – го уровня X.