КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ

КОДИРОВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ. Большая часть пользователей при помощи компьютера обрабатывает текстовую информацию, которая состоит из символов: букв, цифр, знаков препинания и др. Для того чтобы закодировать 1 символ используют количество информации равное 1 байту, т.е. I=1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий N и количество информации I, можно вычислить, сколько различных символов можно закодировать: , т.е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Суть кодирования: каждому символу ставят в соответствие двоичный код от 0 до 1 или соответствующий ему десятичный код от 0 до 255. Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице.

Международным стандартом на персональных компьютерах является уже упоминавшаяся таблица кодировки ASCII. Принцип последовательного кодирования алфавита заключается в том, что в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений.

Стандартными в этой таблице являются только первые 128 символов, т.е. символы с номерами от нуля (двоичный код 0) до 127 (01). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.

Остальные 128 кодов, начиная со 128 (двоичный код 10) и кончая 255 (1), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов. В настоящее время для кодировки русских букв используют пять различных кодовых таблиц (КОИ-8, СР1251, СР866, Мас, ISO), причем тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой кодировке.

В большинстве случаев о перекодировке текстовых документов заботится не пользователь, а специальные программы - конверторы, которые встроены в приложения. Начиная с 1997 г. последние версии Microsoft Windows и Office поддерживают новую кодировку Unicode, которая на каждый символ отводит по 2 байта, а, поэтому, можно закодировать не 256 символов, а 65536 различных символов. 3.3.