рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Кодирование текстовой информации

Кодирование текстовой информации - раздел Информатика, ИНФОРМАТИКА Современные Эвм Обрабатывают Не Только Числовую, Но И Текстовую, Другими Слов...

Современные ЭВМ обрабатывают не только числовую, но и текстовую, другими словами – алфавитно-цифровую информацию, содержащую цифры, буквы, знаки препинания, математические и другие символы. Такой характер имеют экономическая, планово-производственная, учетная информация, а также тексты программ на алгоритмических языках и др. Для представления такой информации требуются слова переменной длины.

Совокупность всех символов, используемых в вычислительной системе, представляет собой ее алфавит. Применяются различные виды кодирования символов, использующие коды разной длины.

Деловая информация в среднем содержит почти вдвое больше цифр, чем букв. Поэтому наряду с общей системой кодирования алфавитно-цифровых символов (десятичные цифры, буквы и другие знаки) в ЭВМ сохраняют также отдельную систему кодирования для данных, состоящих только из десятичных цифр.

Наибольшее распространение получило представление алфавитно-цифровой информации с помощью 8-разрядных слогов, называемых байтами. С помощью байта можно кодировать 256 различных символов (ASCII-код). Компьютеры могут обрабатывать информацию, представляемую в числовой форме. Вводимые буквы кодируются определенными числами, а при выводе их для чтения (на экран, принтер и т.п.) по каждому числу (коду символа) строится изображение символа.

Основанная на 16-разрядном (двухбайтном) кодировании символов система получила название универсальной – UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65536 различных символов – этого поля достаточно для размещения в одной таблице символов большинства языков планеты.

Для представления алфавитно-цифровых символов в памяти ЭВМ и на носителях информации в больших ЭВМ и в некоторых других машинах используется двоичный код для обработки информации (ДКОИ), а в микропроцессорах, ПК и микро-ЭВМ – расширенный за счет букв русского алфавита код ASCII. В компьютерных сетях на территории России и в российском секторе Интернета широкое распространение получила кодировка КОИ-8 (код обмена информацией, восьмизначный). Другая кодировка символов русского языка Windows-1251 была введена компанией Microsoft, она используется на ряде локальных компьютеров, работающих в среде Windows.

Алфавитно-цифровая информация представляется словами переменной длины, содержащими нужное число байт-символов (обычно от 1 до 256 байт).

Для упрощения автоматизации обработки данных применяют весовой принцип кодирования символов. Двоичное число, соответствующее коду символа, называется его весом. При весовом кодировании веса кодов цифр последовательно возрастают, а веса кодов букв увеличиваются в алфавитном порядке. Вес кода буквы B на 1 больше веса кода буквы А и т.д.

Если необходимо расположить список фамилий в алфавитном порядке, то при весовом принципе кодирования эта операция может быть выполнена ЭВМ путем сравнения двоичных чисел, соответствующих кодовым изображениям фамилий.

Для экономии емкости памяти и для удобства выполнения арифметических операций над десятичными числами в машинах с байтовым представлением информации предусматриваются специальные форматы для десятичных чисел:

1)зонный ("распакованный")

 

2) уплотненный ("упакованный")

 

Десятичные цифры 0, 1, 2, ... , 9 представляются в двоично-десятичной форме – коде 8421, в котором десятичная цифра изображается соответствующим 4-разрядным двоичным числом. Не используемые при этом комбинации 4-разрядных кодов (1010 - 1111) служат для кодирования знаков и служебных символов.

Код 8421 удобен для выполнения машиной преобразований из десятичной системы в двоичную и обратно. Этот код аддитивен, т.е. сумма представлений двух цифр есть код их суммы. Однако использование этого кода связано с трудностями обнаружения переноса в следующий десятичный разряд и сложностью перехода к обратным и дополнительным кодам для десятичных чисел, облегчающим выполнение алгебраического сложения.

Для зонного формата в каждом байте содержатся только одна десятичная цифра и служебный знак (зона), при этом четыре правых разряда байта служат для представления десятичной цифры в двоично-десятичном коде, а четыре левых заняты специальным 4-разрядным кодом, называемым зоной.

Младший байт в этом формате состоит из кодов знака и младшей десятичной цифры числа.

В ДКОИ принято кодировать: плюс – 1100, минус – 1101 и зона – 1111.

Пример.

Число - 6.285 в зонном десятичном формате имеет вид

6 2 8 - 5

11110110 11110010 11111000 1101 0101

Информация при этом о месте расположения десятичной запятой (точки) фиксируется в самой программе задачи.

При кодировании десятичного числа без знака в левые четыре разряда младшего байта записывается код зоны.

В упакованном байте реализуется возможность размещения в одном байте двух десятичных цифр. Десятичное число всегда занимает целое число байтов. Код знака размещается в правых четырех разрядах младшего байта. Если левые четыре разряда самого левого (старшего) байта оказываются свободными, они заполняются нулями.

Пример.

Число - 6285 в упакованном десятичном формате имеет вид

0 6 2 8 5 -

0000 0110 0010 1000 0101 1101

байт байт байт

Упакованный формат используется при выполнении операций над десятичными цифрами. Результат получается также в этом формате. Числа, участвующие в операции, могут иметь неодинаковую длину. Они рассматриваются как целые числа, выровненные по младшим разрядам. Формат с зоной используется при операциях ввод-вывод десятичных данных.

В ЭВМ, использующих распакованный и упакованный форматы, имеются команды для преобразования десятичных чисел из зонного формата в упакованный и обратно.

Программист записывает данные в привычной форме. Перевод из этой формы во внутреннее представление осуществляется в процессе ввода данных. При выводе информации эти же служебные программы осуществляют обратный перевод.

 

– Конец работы –

Эта тема принадлежит разделу:

ИНФОРМАТИКА

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ... ПУТЕЙ СООБЩЕНИЯ МИИТ... Кафедра Вычислительные системы и сети...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Кодирование текстовой информации

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Предшественники электронных вычислительных машин
Первое автоматическое устройство для выполнения операции сложения было создано в 1623 году в Германии Вильгельмом Шикардом на базе механических часов.

Поколения электронных вычислительных машин
На протяжении пяти десятилетий электронная вычислительная техника очень быстро развивается, за это время сменилось несколько поколений ЭВМ. Поколение ЭВМ определяется совокупностью взаимоо

Упрощенная структура компьютера и принцип его работы.
Современные ЭВМ (компьютеры) имеют разнообразную конфигурацию (состав, физическую и логическую организацию). Однако во многих случаях их упрощенная структура может быть отображена рисунком 1.

Программное обеспечение компьютера
  Для того, чтобы ЭВМ была ЭВМ, т.е. могла выполнять любые действия по обработке информации, необходимо составить на понятном ей языке последовательность команд, т.е. программу

История языков программирования
  Программы для первых компьютеров писали на «машинном» языке, т.е. в кодах, непосредственно воспринимаемых компьютером. В начале 50-х годов появился язык ассемблер*

Основные характеристики компьютеров
Важнейшими эксплуатационными характеристиками ЭВМ являются ее производительность Р и общий коэффициент эффективности машины Э: Э = Р/ (Сэвм + Сэк), Сэвм – стоимос

МикроЭВМ
С появлением в 70х годах прошлого века сверхбольших интегральных схем стало возможным создавать на одной микросхеме упрощенный вариант процессора – микропроцессор с числом разрядов в слове 8-16 и б

Персональные компьютеры
  Первые персональные компьютеры появились в середине 70-х годов. Их разработали независимо друг от друга фирмы IBM и Apple. Однако стоимость компьютеров была слишком высока, и поэтом

Большие ЭВМ и СуперЭВМ
Большие ЭВМ (мэйнфреймы) – это мощные компьютеры общего назначения. Их применяют для обслуживания очень крупных организаций и даже целых отраслей народного хозяйства. На базе таких компьютеров созд

Представление чисел в позиционной системе счисления
Под системой счисления понимается способ представления любого числа с помощью некоторого алфавита символов, называемых цифрами. Существуют различные системы счисления. От их особенностей зав

Случай, когда система счисления является целой степенью числа 2
Рассмотрим правила преобразования восьмеричных и шестнадцатеричных чисел в двоичные и наоборот. Эти правила исключительно просты, т.к. основания восьмеричной и шестнадцатеричной систем есть целые с

Общий случай перевода
Общие правила перевода чисел из десятичной системы счисления в другую приведены ниже 1) Для целых чисел. Делим число на основание той системы счисления, в которую переводим данное

Двоичная арифметика
Правила выполнения арифметических действий над двоичными числами задаются таблицами двоичных сложения, вычитания и умножения. Таблица Таблица Таблица двоичного двоичного двоичного

Представление чисел в форме с фиксированной и плавающей точкой
В ЭВМ применяют две формы представления чисел: с фиксированной точкой (естественная форма) и плавающей точкой. При представлении чисел с фиксированной точкой положение точки фиксируется в

Коды для представления чисел в компьютере
  Взаимно однозначное преобразование слов называется кодированием. В ЭВМ в целях упрощения выполнения арифметических операций применяют специальные коды для представления чисел. При п

Прямой код
Прямой код двоичного числа G, представляемого в n - разрядной сетке, определяется как   G , при G>=0; G

Обратный код
Обратный код двоичного числа G, представляемого в n - разрядной сетке, определяется как   G , при G>=0;

Дополнительный код
Дополнительный код двоичного числа G, представляемого в n - разрядной сетке, определяется как     G ,

Смещенный код.
Помимо рассмотренных кодов для представления чисел со знаком применяется еще смещенный код. Этот код обычно используется для представления целых чисел, задающих порядки чисел с плавающей точкой. Оп

Сложение чисел в форме с плавающей точкой
Сложение двух чисел, представленных в форме с плавающей точкой осуществляется по следующему алгоритму: Определение разности R (с помощью алгебраического сложения) порядков заданных чисел с

Кодирование графической информации
  Если рассмотреть с помощью увеличительного стекла черно-белое графическое изображение, напечатанное в газете или книге, то можно увидеть, что оно состоит из мельчайших точек, образу

Кодирование звуковой информации
  В отличие от текстовых, числовых и графических данных, у звукозаписей не было столь длительной истории кодирования. Методы кодирования звуковой информации двоичным кодом далеки от с

Представление команд
В общем случае команда состоит из операционной части и адресной части. Каждая ЭВМ имеет свой набор команд. Полный набор к

Основные структуры данных
Автоматизированная обработка больших объемов данных происходит проще, когда данные упорядочены, т.е. образуют заданную структуру. Среди существующих типов структур данных можно выделить три основны

Режимы и технологии работы с базами данных
Система управления базами данных имеет два режима работы: проектировочный и пользовательский. Первый режим предназначен для создания или изменения структуры базы данных и создания инструментов для

Получение информации из Интернета
  Интернет – всемирная компьютерная сеть. Если два компьютера, находящиеся на разных континентах, обмениваются данными в Интернете, это совсем не значит, что между ними действует одно

Структура документа на языке HTML
1) Документ HTML всегда должен начинаться с тега <HTML> и заканчиваться соответствующим закрывающимся тегом </HTML>. 2) Внутри документа выделяются два основных раздела: раздел

Функциональные блочные элементы
Основными функциональными элементами являются заголовки и абзацы. Язык HTML поддерживает шесть уровней заголовков. Они задаются при помощи парных тегов <H1> до <H6>. Эти элементы отобра

Web-графика
Графические элементы Web-страниц используют два основных формата – GIF и JPEG (допустим формат PNG). Файлы формата GIF (Graphic Interchange Format) – файл упакован и занимает меньше места,

Средства антивирусной защиты
Основным средством защиты информации является резервное копирование наиболее ценных данных. В случае утраты информации по какой-либо причине жёсткие диски переформатируют и подготавливают к новой э

Понятие несимметричного шифрования информации
Обычный подход состоит в том, что к документу применяется некий метод шифрования (назовём его ключом), после чего документ становится недоступен для чтения обычными средствами. Его может про

Принцип достаточности защиты
Защита публичным ключом (впрочем, как и большинство других видов защиты информации) не является абсолютно надёжной. Поскольку каждый желающий может получить и использовать чей-то публичный ключ, то

Понятие электронной подписи
  Итак, клиент может переслать организации свои конфиденциальные данные (например, номер электронного счёта). Точно так же он может общаться и с банком, отдавая ему распоряжения о пер

Понятие электронных сертификатов
Системой несимметричного шифрования обеспечивается делопроизводство в Интернете. Благодаря ей каждый из участников обмена может быть уверен, что полученное сообщение отправлено именно тем, кем оно

Математические основы синтеза схем
Физическим аналогом букв двоичного алфавита (0 и 1) в схемах ЭВМ являются низкий и высокий потенциал, отсутствие и наличие импульса и т.п. Работу любой схемы ЭВМ можно представить следующим образом

Основы булевой алгебры. Булевы функции
Переменные, принимающие два значения: 0 и 1 (ложь и истина), называются булевыми (двоичными, логическими). Основными операциями булевой алгебры является инверсия, конъюнкция и дизъюнкция.

Законы булевой алгебры.
Законы булевой алгебры можно выразить в виде формул: Удобно выделить законы, облегчающие преобразования формул к более пр

Основы автоматных преобразований
Цифровой (конечный) автомат – это образ элемента с конечной памятью, который реализуется через механизм «смены состояний», каждое из которых отражает некоторую предысторию поступления входных сигна

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги