Кодирование символьной информации

Код (code) — совокупность знаков, символов и правил представления информации. Рассмотрим методы дискретного представления информации, или кодирования (которые, надо сказать, появились задолго до вычислительных машин). Первым широко известным примером является азбука Морзе (табл. 1.5), в которой буквы латиницы (или кириллицы) и цифры кодируются сочетаниями из «точек» и «тире». Воспользуемся данным кодом для иллюстрации основных понятий, связанных с кодированием (не вдаваясь в теорию кодирования).

Кодируемые (обозначаемые) элементы входного алфавита обычно называют символами.

Символом (служит условным знаком какого-нибудь понятия, явления), как правило, является цифра, буква, знак пунктуации или иероглиф естественного языка, знак препинания, знак пробела, специальный знак, символ операции. Кроме этого, учитываются управляющие («непечатные») символы.

Кодирующие (обозначающие) элементы выходного алфавита называются знаками; количество различных знаков в выходном алфавите назовем значностью {-арностью, -ично-стъю, например «бинарный» или «двоичный» код); количество знаков в кодирующей последовательности для одного символа — разрядностью кода.

Пространственно-временное расположение знаков кода приводит к понятиям параллельных или последовательных кодов. При последовательном коде каждый временной такт предназначен для отображения одного разряда слова. Здесь все разряды слова фиксируются по очереди одним и тем же элементом и проходят через одну и ту же линию передачи (например, радио- или оптические сигналы либо передача данных по двум проводам, двухжильному кабелю).

При параллельном коде все знаки символа представляются в одном временном такте, каждый знак проходит через отдельную линию (например, по четырем проводам, четырех-жильному кабелю), образуя символ (т. е. символ передается в один прием, в один момент времени).

Для последовательного кода характерно временное разделение каналов при передаче информации, для параллельного — пространственное. В зависимости от применяемого кода различаются устройства параллельного и последовательного действия.

Применительно к азбуке Морзе (AM):

• символами являются элементы языкового алфавита (буквыА—Z или А—Я) и цифровой алфавит (здесь — цифры
0-9);

• знаками являются «точка» и «тире» (или «+» и «-» либо «1» «0», короче — два любых разных знака);

• поскольку знаков два, AM является двузначным {бинарным, воичным) кодом, если бы их было 3, то мы имели бы дело с троичным, тернарным, трехзначным кодом;

• поскольку число знаков в AM колеблется от 1 (буквы Е, Т) о 5 (цифры), здесь имеет место код с переменной разрядностью (в AM часто встречающиеся в тексте символы обозначены более короткими кодовыми комбинациями, нежели редкие символы);

• поскольку знаки передаются последовательно (электрические импульсы, звуковые или оптические сигналы разной лины, соответствующие «точкам» и «тире»), AM есть последовательный код.

Наименование кода	расшифровка/ перевод	другие названия	Разрядность	Комментарий
Baudot	Код Бодо	IA-1— international alphabet № 1		В прошлом — европейский стандарт для телеграфной связи
М2	МККТТ-2 CCITT-2	IA-2		Телеграфный код, предложенный Международным Комитетом по телефонии и телеграфии (МККТТ) и заменивший код Бодо
ASCII-7	American Standard Code for Information Interchange	ISO-7 IA-5, USASCII, ANSI X3.4		Код для передачи данных, поддерживает 128 символов, включающих прописные и строчные символы латиницы, цифры, специальные значки и управляющие символы. После добавления некоторых национальных символов (10 бинарных комбинаций) был принят Международной организацией по стандартизации (ISO) как стандартISO-7
ASCII-8	Тоже			Для внутреннего и внешнего представления данных в вычислительных системах. Включает стандартную часть (128 символов) и национальную (128 символов). В зависимости от национальной части кодовые таблицы различаются
EBCDIC	Expanded Binary Coded Decimal Information Code			Предложен фирмой IBM для машин серий IBM/360-375 (внутреннее представление данных в памяти), а затем распространившийся и на системы других производителей
Hollerith	Код Холлерита	Код перфокарт (ПК)		Предложен для ПК (1913 г.), затем использовавшийся для кодирования информации перед вводом в ЭВМ с ПК
UNICODE	UNIversal Code			Поскольку в 16-разрядном UNICODE можно закодировать 65 536 символов вместо 128 в ASCII, то отпадает необходимость в создании модификаций таблиц кодов. UNICODE охватывает 28 000 букв, знаков, слогов, иероглифов национальных языков мира

Первые опыты телеграфной и радиосвязи осуществлялись именно посредством AM, причем приемное устройство записывало импульсы переменной длины в виде «точек» и «тире» на движущуюся телеграфную ленту, однако уже в начале XX в. был осуществлен переход на 5-разрядный (5-битовый) телеграфный код.

В табл. 1.6, 1.7 приводится перечень наиболее известных кодов, некоторые из них использовались первоначально для связи, кодирования данных, а затем для представления информации в ЭВМ.

Таблица. Характеристики некоторых наиболее известных кодов

Таблица 1.7. Фрагменты некоторых кодовых таблиц (указаны 16-ричные коды символов)
Символ	IA-2	Бодо	ISO-7	EBCDIC	ASCII-8	Холлерит
А				С1	А1
в				С2	А2
с	0Е			СЗ	A3
D		IE		С4	А4
а					Е1
b					Е2
с					ЕЗ
d					Е4
. (точка)	1С		2Е	4В	4Е
, (запятая)	ОС		2С	6В	4С
: (двоеточие)	IE		ЗВ	5Е	5В	4 0А
? (вопрос)		0D	3F	6F	5F