Кодирование текстовых данных

Если каждому символу алфавита сопоставить определенное целое число, то с помощью двоичного кода можно кодировать и текстовую информацию.

8 разрядов – 256 символов: английские и русские буквы строчные и прописные, знаки препинания, арифметических действий и некоторые общепринятые специальные символы (%, №, ").

Для того, чтобы весь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирования, а это пока невозможно из-за противоречий между символами национальных алфавитов и противоречий корпоративного характера.

Для английского языка противоречия уже сняты.

Институт стандартизации США (ANSI – American National Standard Institute) ввел в действие систему кодирования ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США).

ASCII: базовая (0 – 127) и расширенная (128 – 255) таблицы кодирования;

– с 0 по 31 код отданы производителям аппаратных средств (компьютеров и печатающих устройств), это так называемые управляющие коды, которым не соответствуют никакие символы языка (эти коды не выводятся ни на экран, ни на печать), но они могут управлять выводом других данных;

– 32 – 127: коды символов английского алфавита, цифр и др.

Аналогичные системы кодирования были разработаны и в других странах.

Поддержка производителей оборудования и программ вывела американский код ASCII на уровень международного стандарта, и национальным системам кодирования пришлось отступить на вторую, расширенную часть системы кодирования (128-255 коды).

В России:

– кодировка Windows-1251, введенная компанией Microsoft, – ввиду большого распространения программ этой компании;

– КОИ-8 (код обмена информацией, восьмизначный): произошла в период действия Совета Экономической Взаимопомощи (СЭВ) государств Восточной Европы; имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета.

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, – кодировка ISO (International Standard Organization – Между-народный институт стандартизации), на практике используется редко.

На компьютерах, работающих в MS-DOS, могут действовать кодировки ГОСТ (устаревшая) и ГОСТ-альтернативная (используется и сейчас).

Универсальная система кодирования текстовых данных. Трудности с созданием единой системы кодирования связаны с ограниченным набором кодов (256 – 8 разрядов).

Система, основанная на 16-разрядном кодировании символов, получила название универсальной – Unicode. 16 разрядов позволяют обеспечить уникальные коды для 65 536 различных символов.

Переход на эту систему сдерживался недостаточными ресурсами средств вычислительной техники (в Unicode все текстовые документы автоматически становятся вдвое длиннее), сейчас идет постепенный перевод документов и программных средств на эту систему.