Показатели и количественные меры информации

 

Много ли нужно информации? Обычно интуитивно считается: чем больше - тем лучше! Однако, это не так! Ведь после преобразования она должна передаваться по каналам, а далее обрабатываться и храниться в базах данных ИС (ЭВМ). Естественно, каждое устройство обладает своими ограниченными возможностями и чем меньше объем информации, тем быстрее и проще работа (отсюда и стоимость и сложность систем и т.п.). Очевидно также, что характеристики информации зависят от типов ИС.

Бурное развитие средств и систем связи в 30-х годах нашего столетия привело к необходимости разработки методов оценки количества информации. Основные теоретические положения были сформулированы в 40-х годах в работах К. Шеннона в связи с необходимостью развития системы передачи военной информации, именно поэтому в начале нашли отражение только технические аспекты информации.

В качестве единицы количества информации было принято то количество информации, которое содержится в некотором стандартном сообщении.

Информатизация общества привела к многогранности как понятия информации, так и показателей и методов определения ее количества. Сложность заключается в том, что разработаны (как указывалось выше) только отдельные направления в технических системах. Знание количества и вида информации необходимо всем кто связан с информационными технологиями. В настоящее время система показателей в полной мере формируется по степени и направлениям заинтересованности в информации /2/.

Одно из представлений направлений включает следующие системы показателей: прагматическая, семантическая, синтаксическая, познавательная.

Прагматическое направление и показатели предназначено для систем передачи обработки и хранения информации, т.е. для технических параметров систем информации. Для этих систем теория и методология разработаны достаточно полно.

 

5.1. Количественные меры информации в технических системах

 

Рассмотрим системы с сигнальной информацией (технические ИС, такой вид информации является основным в системах связи). Сигнальная информация после дискретизации и квантования имеет некоторое количество выделенных значений аргумента и уровней функции. Так как их количество ограничено, любая функция, особенно непрерывная или смешанная, будет представлена приближенно (точное представление потребует бесконечного числа значений!). Следовательно, кроме количества, ограничения зависят от требуемой точности представления информации (из бесконечного числа значений выбираются только некоторые значения!).

Дискретные значения аргумента и функции представляют в виде набора символов некоторого алфавита. Если обработка этих значений осуществляется арифметическими преобразованиями, то символы определяются цифровыми символами в выбранной системе счисленияÌ.

Для однозначного описания каждого уровня функции (или точки аргумента ti рис.1.6) выделим некоторое количество символов - q, например, знаков выбранного алфавита (в русском q будет равно 33, в английском – 26 и т.п.) и некоторое количество позиций, длину слова, - n . Тогда общее возможное количество описываемых уровней функции будет определяться количеством общим числом комбинаций (числом произвольных слов, смысловая составляющая здесь не учитывается) и определится как N = qn . При слове длины n = 2 и русском алфавите, число комбинаций N = 332 = 1089, т.е. можно обозначить такое количество уровней.

В ИС, для простоты реализации, в цифровых системах, практически всегда выбирают двоичный алфавит, состоящий только из символов “1” и “0” (при этом значение символа в слове называют битомÌ). Количество комбинаций двоичного слова длины n будет N = 2n и, следовательно, каждой из них можно поставить в соответствие некоторую дискретную точку (значение). С другой стороны, если уже определено, например, 15 уровней, то двоичное слово должно иметь длину не менее 4-х символов (N=16=2n , откуда n=4). Отсюда также следует, что можно выбрать слово длины n=5, N=25=32, т.е. такое слово может представить данные не более чем из 32-х значений, но для данного случая это избыточно. Очевидно, также, что при выборе n=3, однозначно определяются только 8 значений.

Определение конкретного информационного значения произвольно, чаще выбирают комбинации так, чтобы они соответствовали некоторым аналогичным цифрам. Например, (в рассматриваемом случае) для xmin определим комбинацию “0000” – обозначающая двоичный 0, следующему уровню – “0001” и т.д.

Двоичное слово длины n называют байтомÌ, в настоящее время принято считать, в не оговариваемым случае n=8.

В ЭВМ двоичные символы легко реализуются технически (Раздел 2) и имеют хорошее математическое описание.

Таким образом, объем информации источника может измеряться длиной необходимого слова в выбранном алфавите, так если имеется N – “количество информации”, число уровней, и выбран алфавит размерности q, то требуется найти n. Так как N = qn, то n = logq N , это для технической информатики не выгодно (средства реализации!), поэтому все (количество информации - I(q)) сводят к определению количества необходимых бит

I(q) = n log2 q

Один бит соотносят одному элементу информации, тогда общее количество информации от множества k источников с алфавитами длиной qi, равно

I(q1, q2, qk) = I(q1) + I(q2) + I(q3) + ….+ I(qk)

Рассмотренный метод оценки количества называется аддитивной (суммарной) мерой информации (по Хартли), где q – глубина числа, количество символов принятых для представления информации, n – число позиций, необходимых и достаточных для представления чисел заданной величины.

В целом заранее не известен вид и количество информации поступающей информации об объектах, она может быть произвольной, случайной. Аддитивная мера, в условиях неопределенности, “полагает”, что каждый знак поступает с равной вероятностью (“приближенно” – с равной частотой, возможностью).

В реальных условиях в сообщениях информация поступает с разной возможностью (вероятностью) для различных знаков. В этом случае объем информации определяют как

I = - S pi log2 pi,

где i – номер знака (символа), i - 1¸ n, pi – вероятность (возможность) появления знака (символа) в сообщении ( log2 pi - отрицательное число), pi принимает значение 0£pi£ I. I – называют энтропией , очевидно, что она определяет возможность появления различных знаков в условиях “неопределенности”, случайного появления знаков, в условиях статистики, т.е. некоторые усредненные значения появления случайных знаков в сообщении. Подобная оценка называется статистической мерой информации и широко используется в технических системах.

 

 

5.2. Система показателей количества и качества информации

 

Прагматическая система показателей рассматривается с точки зрения определения содержания и количества информации, необходимой для решения задач и технологии обработки. В систему включаются следующие показатели [2,3]:

- важность - значимость информации с точки зрения тех задач, для решения которых используется оцениваемая информация, полнота информации для решаемых задач;

- адекватность - соответствие текущему состоянию соответствующих объектов или процессов;

- релевантность информации, поступающей для обеспечения решаемых задач;

- толерантность поступающей информации

Важность информации всецело определяется необходимостью и достаточностью для решения конкретных задач.

Под адекватностью информации понимается “…степень ее соответствия действительному состоянию тех реалий, которые отображает оцениваемая информация”. Определение адекватности осуществляется по двум параметрам: объективностью получения информации о предмете, процессе или явлении и продолжительностью интервала времени между моментом получения информации и текущим моментом, т. е. до момента оценивания ее адекватности.

Объективность, очевидно, зависит от способа получения значений характеристик предмета, процесса или явления и качества реализации (использования) способа в процессе получения этих знаний. Значения адекватности точно определить сложно (в отличие от статистических методов), поэтому методы сводятся к введению некоторых характеристик и коэффициентов. В качестве примера приведем табл. 1.1.

Релевантность - характеристика соответствия содержания потребностям решаемой задачи. Количественно релевантность определяется коэффициентом Кp = Np / No, где - Np - количество релевантной информации, No - общее количество информации. Проблема заключается в сложности, а порою и невозможности, определения количества информации.

Толерантность - показатель удобства восприятия и использования информации для решаемых задач. Определение является неопределенным, субъективным и значение показателя представляется качественно.

Система семантических показателей - характеризует смысловое содержание оцениваемой информации. Оценки ценности информации осуществляется двумя методами.

1. Оценивается количество ссылок на информацию в различных источниках. Ранее определяли ссылки только в документах, а в настоящее время такие же оценки можно осуществлять анализируя и файловую информацию (ряд оценок можно добавлять исходя из информации в Internet). В кибернетике и математической лингвистике такие методы хорошо разработаны.

 

Таблица 1.1 Структуризация значений адекватности.

  ПАРАМЕТРЫ Качество определения значения характеристики
  Хорошее Среднее Плохое
Т И   Из Непо сред Количес твенно
П Х ме ря ствен но Качес твенно
А Р ем ая   Кос Аналити чески
А К   вен но Логи чески
Т Е       Име В данной среде
Р И С Не из ме ющая ана логи В сходной среде
Т И ря ем   Не Конкрет ного
К И ая имеющая аналогов Отдален ного

 

 

2. Вводится понятие элементарной информационной семантической единицы, под которой понимается некоторая законченная мысль. Показатель информации, в этом случае, определяется как количество таких единиц в общем количестве информации. Определение достаточно сложное и система только разрабатывается.

Остальные показатели используются в различных направлениях и находятся в стадии разработки.

Таким образом: количество, качество и ценность информации в целом по информационной системе определяется оценкой по всей системе показателей.