рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Тема 2.3.

Тема 2.3. - раздел Философия, НЕКОТОРЫЕ ВОПРОСЫ ТЕОРЕТИЧЕСКОГО КУРСА Кодирование Символьной Информации  ...

Кодирование символьной информации

 

Компьютер считают универсальным преобразователем информации. Тексты на естественных языках и числа, математические и специальные символы - одним словом все, что в быту или в профессиональной деятельности может быть необходимо человеку, должно иметь возможность быть введенным в компьютер.В силу безусловного приоритета двоичной системы счисления при внутреннем представлении информации в компьютере кодирование «внешних» символов основывается на сопоставлении каждому из них определенной группы двоичных знаков. При этом из технических соображений и из соображений удобства кодирования-декодирования следует пользоваться равномерными кодами, т.е. двоичными группами равной длины.

Попробуем подсчитать наиболее короткую длину такой комбинации с точки зрения человека, заинтересованного в использовании лишь одного естественного алфавита - скажем, английского: 26 букв следует умножить на 2 (прописные и строчные) - итого 52; 10 цифр, будем считать, 10 знаков препинания; 10 разделительных знаков (три вида скобок, пробел и др.), знаки привычных математических действий, несколько специальных символов (типа #, $, & и др.) — итого ~ 100. Точный подсчет здесь не нужен, поскольку нам предстоит решить простейшую задачу: имея, скажем, равномерный код из групп по N двоичных знаков, сколько можно образовать разных кодовых комбинаций. Ответ очевиден К = 2N. Итак, при N = 6 К = 64 - явно мало, при N = 7 К = 128 - вполне достаточно.

Однако, для кодирования нескольких (хотя бы двух) естественных алфавитов (плюс все отмеченные выше знаки) и этого недостаточно. Минимально достаточное значение N в этом случае 8; имея 256 комбинаций двоичных символов, вполне можно решить указанную задачу. Поскольку 8 двоичных символов составляют 1 байт, то говорят о системах «байтового» кодирования.

При кодировании текста для каждого его символа отводится, обычно, по 1 байту. Это позволяет использовать 28=256 различных символов. Соответствие между символом и его кодом, вообще говоря, может быть выбрано совершенно произвольно. Однако на практике необходимо иметь возможность прочесть на одном компьютере текст, созданный на другом. Поэтому таблицы кодировок стараются стандартизовать. Практически все использующиеся сейчас таблицы основаны на "американском стандартном коде обмена информацией" ASCII. Этот стандарт определяет значения для нижней половины кодовой таблицы - первых 127 кодов (32 управляющих кода, основные знаки препинания и арифметические символы, цифры и латинские буквы). В результате, эти символы отображаются верно, какая бы кодировка не использовалась на конкретном компьютере.

Познакомимся подробнее именно с ASCII, созданной в 1963 г.

В своей первоначальной версии это - система семибитного кодирования. Она ограничивалась одним естественным алфавитом (английским), цифрами и набором различных символов, включая «символы пишущей машинки» (привычные знаки препинания, знаки математических действий и др.) и «управляющие символы». Примеры последних легко найти на клавиатуре компьютера: для микро-ЭВМ, например, DEL - знак удаления символа.

В следующей версии фирма IBM перешла на расширенную 8-битную кодировку. В ней первые 128 символов совпадают с исходными и имеют коды со старшим битом равным нулю, а остальные коды отданы под буквы некоторых европейских языков, в основе которых лежит латиница, греческие буквы, математические символы (скажем, знак квадратного корня) и символы псевдографики. С помощью последних можно создавать таблицы, несложные схемы и др.

Для представления букв русского языка (кириллицы) в рамках ASCII было предложено несколько версий. Первоначально был разработан ГОСТ под названием КОИ-7, оказавшийся по ряду причин крайне неудачным; ныне он практически не используется.

В табл. 1.7 приведена часто используемая в нашей стране модифицированная альтернативная кодировка. В левую часть входят исходные коды ASCII; в правую часть (расширение ASCII) вставлены буквы кириллицы взамен букв, немецкого, французского алфавитов (не совпадающих по написанию с английскими), греческих букв, некоторых спецсимволов.

Знакам алфавита ПЭВМ ставятся в соответствие шестнадцатиричные числа по правилу: первая - номер столбца, вторая - номер строки. Например: английская 'А' - код 41, русская 'и' - код А8.

 

Таблица 2.4 Таблица кодов ASCII (расширенная)

 

 

Одним из достоинств этой системы кодировки русских букв является их естественное упорядочение, т.е. номера букв следуют друг за другом в том же порядке, в каком сами буквы стоят в русском алфавите. Это очень существенно при решении ряда задач обработки текстов, когда требуется выполнить или использовать лексикографическое упорядочение слов.

Хуже обстоит дело с "национальными" символами и "типографскими" знаками препинания. А особенно не повезло языкам, использующим кириллический алфавит (русскому, украинскому, белорусскому, болгарскому и т.д.). Например, для русского языка сейчас широко используются пять таблиц кодировок:

  • CP866 (DOS-альтернативная)- на PC-совместимых компьютерах при работе с операционными системами DOS и OS/2, а также в любительской международной сети Фидо (Fidonet).
  • CP1251 (Windows-кодировка) -на PC-совместимых при работе под Windows 3.1 и Windows 95
  • KOI-8r - самая старая из использующихся до сих пор кодировок. Применяется на компьютерах, работающих под UNIX, является фактическим стандартом для русских текстов в сети Internet.
  • Macintosh Cyrillic - как видно из названия, предназначена для работы со всеми кириллическими языками на Макинтошах
  • ISO-8859. Эта кодировка задумывалась как международный стандарт для кириллических текстов, однако на территории России встречается редко.

Из сказанного выше следует, что даже 8-битная кодировка недостаточна для кодирования всех символов, которые хотелось бы иметь в расширенном алфавите. Все препятствия могут быть сняты при переходе на 16-битную кодировку Unicode, допускающую 65536 кодовых комбинаций.

– Конец работы –

Эта тема принадлежит разделу:

НЕКОТОРЫЕ ВОПРОСЫ ТЕОРЕТИЧЕСКОГО КУРСА

Раздел... Информация свойства информации и ее измерение... Тема Информация ее виды и способы представления Информация от лат...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Тема 2.3.

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Информация, ее виды и способы представления
  Информация (от лат. «information» - сведения, разъяснение, изложение) – продукт взаимодействия данных и методов их обработки, адекватных решаемой задаче.

Вероятностный подход
Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной .кости, имеющей N граней (наиболее распространенным является случай шестигранной кости: N = 6). Результаты данного опы

Объемный подход
В двоичной системе счисления знаки 0 и 1 будем называть битами (от английского выражения Binary digiTs - двоичные цифры). Отметим, что создатели компьютеров отдают предпочтение име

Свойства информации
Информацию следует считать особым видом ресурса, при этом имеется ввиду толкование «ресурса» как запаса неких знаний материальных предметов или энергетических, структурных или каких-либо других хар

Язык, как способ представления информации.
Часто сообщения формируются из отдельных знаков. Такие сообщения будем называть дискретными. Дискретным сообщениям принадлежит важная роль в процессах обработки информации. Конечный набор

Способы перевода в двоичный код: http://videouroki.net/view_post.php?id=165
Особая значимость двоичной системы счисления в информатике определяется тем, что внутреннее представление любой информации в компьютере является двоичным, т.е. описываемым наборами только из двух з

Кодирование целых положительных чисел.
Кодирование -- преобразование состояния системы в сообщение

Кодирование растровых изображений
Изображение на экране компьютера (или при печати с помощью принтера) составляется из маленьких "точек" - пикселов. Их так много, и они настолько малы, что человеческий глаз воспринимает к

Кодирование векторных изображений
Другой способ представления изображений - объектная (или векторная) графика. В этом случае в памяти хранится не сам рисунок, а правила его построения (то есть, например, не все пикселы круга, а ком

Тема 2.5.
Кодирование звуковой информации   Из курса физики вам известно, что звук - это колебания воздуха. О том, как можно закодировать их для компьютерной о

Тема 2.6.
Кодирование видео информации   Видеоинформация включает в себя последовательность кадров и звуковое сопровождение. Кодирование графи

Цифровое кодирование аналогового сигнала.
При оцифровке или дискретизации аналогового сигнала происходит замена непрерывной функции

Основы передачи информации
Технические системы передачи информации Из истории: • первой технической системой передачи стал телеграф (1837 г.); • затем был изобретен телефон (1876 г. американец Алек

Методы повышения помехозащищенности и помехоустойчивости передачи информации
  Термином «шум» называют разного помехи, искажающие передаваемый сигнал и приводящие к потере информации. Технические причины возникновения помех: • плохое качество

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги