рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Кодирование текстовых данных

Кодирование текстовых данных - раздел Информатика, Информация и информатика   Если Каждому Символу Алфавита Сопоставить Определенное Целое ...

 

Если каждому символу алфавита сопоставить определенное целое число (например, порядковый номер), то с помощью двоичного кода можно кодировать и текстовую информацию. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого хватит, чтобы выразить различными комбинациями восьми битов все символы английского и русского языков, как строчные, так и прописные, а также знаки препинания, символы основных арифметических действий и некоторые общеприменяемые специальные символы.

В таком случае всякий символ будет иметь информационный объем в 1 байт.

Для того чтобы весь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирования символов.

Для английского языка, захватившего де-факто нишу международного средства общения, противоречия уже сняты. Институт стандартизации США (ANSI—American National Standard Institute) ввел в действие систему кодирования ASCII(American Standard Code for Information Interchange – стандартный код информационного обмена США). В системе ASCII закреплены две таблицы кодирования – базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств (в первую очередь производителям компьютеров и печатающих устройств). В этой области размещаются управляющие коды, которым не соответствуют никакие символы языков, и, соответственно, эти коды не выводятся ни на экран, ни на устройства печати, но ими можно управлять тем, как производится вывод прочих данных.

Начиная с кода 32 по код 127 размещены коды символов английского алфавита, знаков препинания, цифр, арифметических действий и некоторых вспомогательных символов. Базовая таблица кодировки ASCII приведена в таблице 1.1.

Аналогичные системы кодирования текстовых данных были разработаны и в других странах. Так, например, в СССР в этой области действовала система кодирования КОИ-7 (код обмена информацией, семизначный).

Однако поддержка производителей оборудования и программ вывела американский код ASCII на уровень международного стандарта, и национальным системам кодирования пришлось «отступить» во вторую, расширенную часть системы кодирования, определяющую значения кодов со 128 по 255. Отсутствие единого стандарта в этой области привело к множественности одновременно действующих кодировок. Только в России можно указать три действующих стандарта кодировки и еще два устаревших.

Так, например, кодировка символов русского языка, известная как кодировка Windows-1251, была введена «извне» — компанией Microsoft, но, учитывая широкое распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла широкое распространение (таблица 1.2). Эта кодировка используется на большинстве локальных компьютеров, работающих на платформе Windows.


Другая распространенная кодировка носит название КОИ-8 (код обмена информацией, восьмизначный), таблица 1.3. Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета.

 


Универсальная система кодирования текстовых данных
UNICODE

Недостаток таких систем кодирования текстов вызван ограниченным набором кодов (256). Если, например, кодировать символы не восьмиразрядными двоичными числами, а числами с большим количеством разрядов, то и диапазон возможных значений кодов станет намного больше.

Так система, основанная на 16-разрядном кодировании символов, получила название универсальной — UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 256 х 256 = 65 536 различных символов — этого достаточно для размещения в одной таблице символов большинства языков планеты. Оборотной стороной этого является увеличенная информационная емкость одного символа: всякий символ в UNICODE требует для его хранения 2 байта памяти, т. е. в этой системе все текстовые документы автоматически становятся вдвое длиннее.

Во второй половине 90-х годов технические средства достигли необходимого уровня обеспеченности ресурсами, и наблюдается постепенный перевод документов и программных средств на UNICODE.

– Конец работы –

Эта тема принадлежит разделу:

Информация и информатика

Информация в материальном мире Сигналы и данные Мы живем в материальном мире Все что нас.. Пример процесса преобразования данных в информацию..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Кодирование текстовых данных

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Сигналы и данные
  Мы живем в материальном мире. Все, что нас окружает и с чем мы сталкиваемся ежедневно, относится либо к физическим телам, ли

Данные и методы
Данные несут в себе информацию о событиях, произошедших в материальном мире. Однако данные не тождественны информации. Наблюдая излучения да

Понятие об информации
  Несмотря на то, что с понятием информации мы сталкиваемся ежедневно, строгого и общепризнанного определения информации до сих пор не существует, поэтому вмес

Взаимодействие данных и методов
  Данные являются объективными, поскольку это результат регистрации объективно существовавших сигналов, вызванных изменениями в материальных телах или полях.

Актуальность.
  1. Объективность и субъективность информации. Понятие объективности информации является относительным. Это понятно, если учесть, что методы являются субъективными.

Истоки и предпосылки информатики
  Слово информатика происходит от французского слова Informatique, образованного в результате объединения терминов Information (информация) и

Двоичная система счисления
  впервые предложена гениальным немецким математиком и инженером Готфридом Лейбницем, изобретателем систем счисления, а также основателем дифференциального и интегрального исчи

Троичная система счисления
  Из целочисленных систем счисления обладает наибольшей плотностью записи информации. Первая троичная ЭВМ «Сетунь» была построена в 1958 году Н. П. Брусенцовым в МГУ.

Позиционные системы счисления
Позиционная систе́ма счисле́ния (позиционная нумерация) — система счисления, в которой значение каждого числового знака (цифры) в записи числа зависит от его позиции (раз

Представление числа
Целое число без знака в системе счисления представляется в виде конечной линейной комбинации степеней числа

Запись числа
Число записывают в виде последовательности его -ричных цифр, перечисляемых по убыва

Перевод вещественного числа из десятичной системы счисления в двоичную систему
  Рассмотрим число 567.25 и переведем его в двоичную систему счисления. Перевод целого числа из десятичной системы счисления в двоичную систему

Перевод дробной части числа
  Имеем аналогично 0.012 = 0*2-1+1*2-2 = 0*0.5+1*0.25 = 0.25. Окончательно получим 1000110111.012 = 567.

Меры и единицы количества и объема информации
  Единицы измерения информации служат для измерения объёма информации. В простейшем случае чтобы отличить одно от других необходимо наличие двух информационных объектов. Прич

Кодирование графических данных
  Если рассмотреть с помощью увеличительного стекла черно-белое графическое изображение, напечатанное в газете или книге, то можно увидеть, что оно состоит из мельчайших точек, образу

Кодирование звуковой информации
  Можно выделить два основных направления. Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук при помощи преобразован

Кодирование видеоинформации
Изображение в видео состоит из отдельных кадров, которые меняются с определенной частотой. Кадр кодируется как обычное растровое изображение, то есть разбивается на множество пикселей. Закодировав

Видеоформаты и видеостандарты
  В первую очередь определимся с видеостандартами. Их обязательно нужно учитывать при создании видеофильма или видеоролика. PAL - видеостанд

Стандарты сжатия цифрового видео
MPEG - один из основных стандартов сжатия. Аббревиатура MPEG (Moving Pictures Expert Group) - это название международного комитета, занимающегося разработкой данного стандарта сжат

Расширения видеофайлов
  AVI (Audio-Video Interleaved) - это расширение огромного количества видеофайлов, но не является форматом или кодеком. Это контейнер, разработанный

Алгебра логики
  Логика очень древняя наука. Ещё в античные времена была известна формальная логика, позволяющая делать заключения о правильности какого-либо суждения не по его фактическому содержан

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги