Международные системы байтового кодирования текстовой информации

Наиболее распространены две системы кодирования EBCDIC (Extended Binary Coded Decimal Interchange Code) и ASCII (American Standard Code for Information Interchange - стандартный код информационного обмена США). Первая исторически тяготеет к «большим» ЭВМ, вторая чаще используется на мини- и микро ЭВМ (в том числе и ПК).

В системе ASCII закреплены две таблицы кодирования - базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств. В этой области размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков, но ими можно управлять способом вывода других символов.

Начиная с кода 32 по код 127 размещены коды символов английского алфавита, знаков препинания, цифр, арифметических действий и некоторых вспомогательных символов (табл.1.4).

Таблица 1.4.

Символы с кодами 32-127 (общая часть всех кодировок)

  A B C D E F
  ! ‘‘ # $ % & ( ) * + , - . /
: ; < = > ?
@ A B C D E F G H I J K L M N O
P Q R S T U V W X Y Z [ ] ^ _
a b c d e f g h i j k l m n o
p q r s t u v w x y z { | } ~  

 

Символы национальных языков, в том числе и русского, располагаются в расширенной части системы кодирования (коды с 128 по 255). Отсутствие единого стандарта в этой области привело к множественности одновременно действующих кодировок. Только в России можно указать три действующих стандарта кодировки:

* кодировка Windows-1251, используемая на большинстве локальных компьютеров, работающих на платформе Windows;

* кодировка КОИ-8 (код обмена информацией восьмиричный), имеющая широкое распространение в компьютерных сетях на территории России и в российском секторе Интернет;

* кодировка ISO (International Standard Organization - Международный институт стандартизации), закрепленная международными стандартами для символов русского алфавита.

С полными таблицами для базовой и расширенной части кодировки можно ознакомиться в справочнике Фигурнова В.Э. “IBM PC для пользователя”.

Пример S T O P

01010011 01010100 01001111 01010000

5316 5416 4F16 5016

Система, основанная на 16-ти разрядном кодировании, получила название универсальной - UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65 536 различных символов, что достаточно для размещения в одной таблице символов большинства языков планеты. Долгое время внедрение этой системы сдерживалось из-за недостаточных ресурсов средств вычислительной техники, однако со второй половины 90-х годов наблюдается постепенный перевод документов и программных средств на универсальную систему кодирования.