Кодирование символьной информации

Код (code) — совокупность знаков, символов и правил представления информации. Рассмотрим методы дискретного представления информации, или кодирования (которые, надо сказать, появились задолго до вычислительных машин). Первым широко известным примером является азбука Морзе (табл. 1.5), в которой буквы латиницы (или кириллицы) и цифры кодиру­ются сочетаниями из «точек» и «тире». Воспользуемся данным кодом для иллюстрации основных понятий, связанных с коди­рованием (не вдаваясь в теорию кодирования).

Кодируемые (обозначаемые) элементы входного ал­фавита обычно называют символами.

Символом (служит условным знаком какого-нибудь понятия, явления), как правило, является цифра, буква, знак пунктуации или иероглиф естественного языка, знак препинания, знак про­бела, специальный знак, символ операции. Кроме этого, учиты­ваются управляющие («непечатные») символы.

Кодирующие (обозначающие) элементы выходного алфавита называются знаками; количество различных знаков в выходном алфавите назовем значностью {-арностью, -ично-стъю, например «бинарный» или «двоичный» код); количество знаков в кодирующей последовательности для одного символа — разрядностью кода.

Пространственно-временное расположение знаков кода приводит к понятиям параллельных или последова­тельных кодов. При последовательном коде каждый временной такт предназначен для отображения одного разряда слова. Здесь все разряды слова фиксируются по очереди одним и тем же элементом и проходят через одну и ту же линию переда­чи (например, радио- или оптические сигналы либо передача данных по двум проводам, двухжильному кабелю).

При параллельном коде все знаки символа представ­ляются в одном временном такте, каждый знак проходит через отдельную линию (например, по четырем проводам, четырех-жильному кабелю), образуя символ (т. е. символ передается в один прием, в один момент времени).

Для последовательного кода характерно временное раз­деление каналов при передаче информации, для параллельно­го — пространственное. В зависимости от применяемого кода различаются устройства параллельного и последовательного действия.

Применительно к азбуке Морзе (AM):

символами являются элементы языкового алфавита (буквыА—Z или А—Я) и цифровой алфавит (здесь — цифры
0-9);

• знаками являются «точка» и «тире» (или «+» и «-» либо «1» «0», короче — два любых разных знака);

• поскольку знаков два, AM является двузначным {бинарным, воичным) кодом, если бы их было 3, то мы имели бы дело с троичным, тернарным, трехзначным кодом;

• поскольку число знаков в AM колеблется от 1 (буквы Е, Т) о 5 (цифры), здесь имеет место код с переменной разрядностью (в AM часто встречающиеся в тексте символы обозначены более короткими кодовыми комбинациями, нежели редкие символы);

• поскольку знаки передаются последовательно (электрические импульсы, звуковые или оптические сигналы разной лины, соответствующие «точкам» и «тире»), AM есть последовательный код.

Наимено­вание кода расшифровка/ перевод другие названия Разряд­ность Комментарий
Baudot Код Бодо IA-1— international alphabet № 1 В прошлом — европейский стандарт для телеграфной связи
М2 МККТТ-2 CCITT-2 IA-2 Телеграфный код, предложенный Между­народным Комитетом по телефонии и те­леграфии (МККТТ) и заменивший код Бодо
ASCII-7 American Standard Code for Information Interchange ISO-7 IA-5, USASCII, ANSI X3.4 Код для передачи данных, поддерживает 128 символов, включающих прописные и строчные символы латиницы, цифры, специальные значки и управляющие сим­волы. После добавления некоторых на­циональных символов (10 бинарных ком­бинаций) был принят Международной ор­ганизацией по стандартизации (ISO) как стандартISO-7
ASCII-8 Тоже   Для внутреннего и внешнего представле­ния данных в вычислительных системах. Включает стандартную часть (128 симво­лов) и национальную (128 символов). В зависимости от национальной части ко­довые таблицы различаются
EBCDIC Expanded Binary Coded Decimal Information Code   Предложен фирмой IBM для машин се­рий IBM/360-375 (внутреннее представ­ление данных в памяти), а затем распро­странившийся и на системы других про­изводителей
Hollerith Код Холлерита Код перфо­карт (ПК) Предложен для ПК (1913 г.), затем ис­пользовавшийся для кодирования ин­формации перед вводом в ЭВМ с ПК
UNICODE UNIversal Code   Поскольку в 16-разрядном UNICODE можно закодировать 65 536 символов вместо 128 в ASCII, то отпадает необходи­мость в создании модификаций таблиц кодов. UNICODE охватывает 28 000 букв, знаков, слогов, иероглифов националь­ных языков мира

 

Первые опыты телеграфной и радиосвязи осуществлялись именно посредством AM, причем приемное устройство записы­вало импульсы переменной длины в виде «точек» и «тире» на движущуюся телеграфную ленту, однако уже в начале XX в. был осуществлен переход на 5-разрядный (5-битовый) телеграфный код.

В табл. 1.6, 1.7 приводится перечень наиболее известных кодов, некоторые из них использовались первоначально для связи, кодирования данных, а затем для представления информации в ЭВМ.

Таблица. Характеристики некоторых наиболее известных кодов

Таблица 1.7. Фрагменты некоторых кодовых таблиц (указаны 16-ричные коды символов)
Символ IA-2 Бодо ISO-7 EBCDIC ASCII-8 Холлерит
А С1 А1
в С2 А2
с СЗ A3
D IE С4 А4
а     Е1  
b     Е2  
с     ЕЗ  
d     Е4  
. (точка)
, (запятая) ОС
: (двоето­чие) IE   ЗВ 4 0А
? (вопрос) 0D 3F 6F 5F