рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Основные положения

Основные положения - раздел Информатика, ИНФОРМАТИКА При Кодировании Дискретных Источников Информации Часто Решается Задача Уменьш...

При кодировании дискретных источников информации часто решается задача уменьшения избыточности, т.е. уменьшения количества символов, используемых для передачи сообщения по каналу связи. Это позволяет повысить скорость передачи за счет уменьшения количества передаваемой информации, а точнее, за счет отсутствия необходимости передачи избыточной информации. В системах хранения уменьшение избыточности позволяет снизить требования к информационной емкости используемой памяти.

Для передачи и хранения информации, как правило, используется двоичное кодирование. Любое сообщение передается в виде различных комбинаций двух элементарных сигналов. Эти сигналы удобно обозначать символами 0 и 1. Тогда кодовое слово будет состоять из последовательностей нулей и единиц.

Если алфавит A состоит из N символов, то для их двоичного кодирования необходимо слово разрядностью n, которая определяется

n = élog2 .

Это справедливо при использовании стандартных кодовых таблиц, например, ASCII, KOI-8 и т.п., обеспечивающих кодирование до 256 символов.

Если в используемом алфавите символов меньше, чем используется в стандартной кодовой таблице, то возможно использование некоторой другой таблицы кодирования, позволяющей уменьшить количество двоичных разрядов, используемых для кодирования любого символа. Это, в определенном смысле, обеспечивает сжатие информации.

Например, если необходимо передавать или хранить сообщение, состоящее из символов кириллицы, цифр и семи символов разделителей {«.», «,», «:», «;», «!», « кавычки », «?»} ( всего 50 символов), мы можем воспользоваться способами кодирования:

Ø Кодировать каждый символ в соответствии со стандартной кодовой таблицей, например, KOI-8R. По этой таблице каждый символ будет представляться 8 битовым (байт) кодовым словом, n1 = 8;

Ø Составить и использовать отдельную кодовую таблицу, это может быть некоторый усеченный вариант стандартной таблицы, не учитывающую возможность кодирования символов, не входящих в передаваемое сообщение, тогда необходимый размер кодового слова

n2 =élog2 Nù== é log2 50ù=6.

Очевидно, передача сообщения с помощью такого кода будет более эффективной, т.к. будет требовать меньшего количества бинарных сигналов при кодировании. Можно говорить о том, что при таком кодировании мы не передаем избыточную информацию, которая была бы в восьмибитовом кодировании;

Ø Использовать специальный код со словом переменной длины, в котором символы, появляющиеся в сообщении с наибольшей вероятностью, будут закодированы короткими словами, а наименее вероятным символам сопоставлять длинные кодовые комбинации. Такое кодирование называется эффективным.

Эффективное кодирование базируется на основной теореме Шеннона для каналов без шума, в которой доказано, что сообщения, составленные из букв некоторого алфавита, можно закодировать так, что среднее число двоичных символов на букву будет сколь угодно близко к энтропии источника этих сообщений, но не меньше этой величины.

Теорема не указывает конкретного способа кодирования, но из нее следует, что при выборе каждого символа кодовой комбинации необходимо стараться, чтобы он нес максимальную информацию. Следовательно, каждый элементарный сигнал должен принимать значения 0 и 1 по возможности с равными вероятностями и каждый выбор должен быть независим от значений предыдущих символов.

При отсутствии статистической взаимосвязи между кодируемыми символами конструктивные методы построения эффективных кодов были даны впервые К.Шенноном и Н.Фано. Их методики существенно не различаются, поэтому соответствующий код получил название кода Шеннона-Фано.

Код строится следующим образом:

буквы алфавита сообщений выписываются в таблицу в порядке убывания вероятностей. Затем они разделяются на две группы так, чтобы суммы вероятностей в каждой из групп были по возможности одинаковы. Всем буквам верхней половины в качестве первого символа приписывается 1, а всем нижним — 0. Каждая из полученных групп, в свою очередь, разбивается на две подгруппы с одинаковыми суммарными вероятностями и т. д. Процесс повторяется до тех пор, пока в каждой подгруппе останется по одной букве.

Рассмотрим алфавит из восьми букв (табл. 1). Ясно, что при обычном (не учитывающем статистических характеристик) кодировании для представления каждой буквы требуется n2 =3символа. В табл.1 приведен один из возможных вариантов кодирования по сформулированному выше правилу.

 

 

Таблица 1    
Символы Вероятности p(ai) Кодовые комбинации 1 ступень 2 ступень 3 ступень 4 ступень ступень
a1 0.22          
a2 0.20          
a3 0.16          
a4 0.16        
a5 0.10        
a6 0.10        
a7 0.04        
a8 0.02          

 

Очевидно, для указанных вероятностей можно выбрать другое разбиение на подмножества не нарушая алгоритма Шеннона-Фано. Такой пример приведен в табл.2.

Таблица 2    
Символы Вероятности p(ai) Кодовые комбинации 1 ступень 2 ступень 3 ступень 4 ступень ступень
a1 0.22          
a2 0.20          
a3 0.16        
a4 0.16        
a5 0.10        
a6 0.10        
a7 0.04        
a8 0.02          

 

Сравнивая приведенные таблицы, обратим внимание на то, что по эффективности полученные коды различны. Действительно, в табл.2 менее вероятный символ a4 будет закодирован двухразрядным двоичным числом, в то время как a2 , вероятность появления которого в сообщении выше, кодируется трехразрядным числом.

Таким образом, рассмотренный алгоритм Шеннона-Фано не всегда приводит к однозначному построению кода. Ведь при разбиении на подгруппы можно сделать большей по вероятности как верхнюю, так и нижнюю подгруппу.

Энтропия набора символов в рассматриваемом случае определяется как

Напомним, что смысл энтропии в данном случае, как следует из теоремы Шеннона, — наименьшее возможное среднее количество двоичных разрядов, необходимых для кодирования символов алфавита размера восемь с известными вероятностями появления символов в сообщении.

Мы можем вычислить среднее количество двоичных разрядов, используемых при кодировании символов по алгоритму Шеннона-Фано

где: A — размер (или объем) алфавита, используемого для передачи сообщения;

n(ai) — число двоичных разрядов в кодовой комбинации, соответствующей символу ai.

Таким образом, мы получим для табл.1 Iср=2,84, а для табл.2 Iср=2,80. Построенный код весьма близок к наилучшему эффективному коду по Шеннону, но не является оптимальным. Должен существовать некоторый алгоритм позволяющий выполнить большее сжатие сообщения.

– Конец работы –

Эта тема принадлежит разделу:

ИНФОРМАТИКА

Государственное образовательное учреждение высшего профессионального образования... Санкт Петербургский государственный университет аэрокосмического...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Основные положения

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Методические указания к выполнению лабораторных работ
    Составители: А.В.Зюбан, А.А.Ключарев, М.В.Соколовская     Рецензент: Д.т.н., профессор Л.А.Осипов    

Порядок выполнения лабораторной работы
1. Перейти в командной строке на внешний носитель. 2. Поменять цвет экрана и шрифта. 3. Создать три каталога: КАТ1, КАТ2, КАТ3 — НАЗВАНИЯ КАТАЛОГОВ, ПОДКАТАЛОГОВ И ФАЙЛ

Основные сведения о DOS
1. Приглашение DOS Когда DOS готова к работе с пользователем, она выдает на экран приглашение: ü A>; ü C:> — диск

Работа с файлами в MS DOS
1. Создание текстовых файлов Небольшие текстовые файлы можно набрать непосредственно с клавиатуры. Для этого необходимо ввести команду: cop

Порядок выполнения лабораторной работы
1. Создать книгу MS EXCEL и сохранить ее под своей фамилией в каталоге учебной группы на сервере. СОХРАНЕНИЕ ФАЙЛА НА ЛОКАЛЬНОМ ДИСКЕ КОМПЬЮТЕРА НЕ ДОПУСКАЕТСЯ. 2. В книге

Основные сведения об MS EXCEL
1. Структура экрана Окно приложения MS Excel обладает всеми элементами окон Windows: строка заголовка окна, кнопки управления размерами окна, систе

Преобразование данных
1. Формулы Формулы являются удобным средством работы с данными электронной таблицы. С их помощью можно выполнять различные операции над данными, та

Наглядное представление данных
1. Графики и диаграммы Диаграмма является графическим представлением данных рабочего листа. Дополнение табличных материалов диаграммами делает проц

Порядок выполнения лабораторной работы
1. Создать таблицу (50 рабочих строк) в Excel аналогичную рис.1.     Таблица расчета энтропии источника

Основные положения
1. Общие сведения об информации. Понятие «информация» происходит от латинского слова informatio- разъяснение, осведомление, изложе

Порядок выполнения лабораторной работы
Исходными данными для данной лабораторной работы являются результаты статистической обработки текста, выполненной в предыдущей лабораторной работе. Из лабораторной работы «Определение количества ин

Порядок выполнения лабораторной работы
Исходными данными для данной лабораторной работы являются результаты статистической обработки текста, выполненной в лабораторной работе «Кодирование дискретных источников информации методом Шеннона

Основные положения
От недостатка неоднозначного кодирования, рассмотренного в предыдущей лабораторной работе алгоритма свободна методика Д.Хаффмана. Она гарантирует однозначное построение кода с наименьшим для данног

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги