рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Сжатие данных

Сжатие данных - Лекция, раздел Образование, Обработка текстовой Сжатие Данных Необходимо Для Удешевления Хранения Информации. Характ...

Сжатие данных необходимо для удешевления хранения информации.

Характерной особенностью большинства данных является избыточность. Под этим термином часто понимают разные понятия. Так в теории лингвистики под избыточностью понимается количество слов, которые можно убрать из текста без потери его смысла. Такая избыточность обусловлена стилем автора. В теории информации под избыточностью понимают количество случайным образом удаленных букв при которых возможно однозначное восстановление текста. Наиболее простым примером избыточности является стенография, в основе которой лежит сжатие информации за счет условного отказа от гласных букв. Например, если из слова ИЗБЫТОЧНОСТЬ выбросить все гласные буквы, то по фрагменту ЗБТЧНСТ можно попытаться восстановить исходное слово. Избыточность зависит: а) от национальных особенностей языка, например избыточность русского языка на 20-30% больше английского; б) от типа данных, т.е. видеозапись имеет большую избыточность, чем у графических данных, а у графических данных избыточность выше, чем у текстовых. Избыточность данных может иметь как отрицательные, так и положительные последствия. Например, учебный материал принято подавать со значительной избыточностью, т.к. такое повторение способствует лучшему запоминанию и пониманию.

Избавление от избыточности данных носит название сжатия данных, а применительно к документам может называться архивацией. Программные средства, используемые для архивации, называются архиваторами.

Сжатию могут подвергаться файлы, папки и даже диски. Уплотнение файлов необходимо для уменьшения их размеров с целью удешевления при их передаче по сетям или для их транспортировки на внешнем носителе малой емкости. Уплотнение папок применяют как средство архивации при длительном хранении, в частности при резервном копировании. Уплотнение диска служит целям повышения эффективности использования их рабочего пространства.

Существует три способа уменьшения избыточности данных. Это изменение содержания данных, изменение структуры данных, либо то и другое вместе. Если при сжатии данных происходит изменение их содержания, то при восстановлении данных не происходит их полного восстановления. Такой метод сжатия применяется для данных, при которых формальная утрата части информации не приводит к значительному снижению потребительских свойств. Этот прием сжатия применим к видеозаписям, музыкальным записям, аудиозаписям и рисункам. Методы сжатия с частичной потерей информации не применимы к текстовым данным.

Характерными форматами сжатия с частичной потерей информации являются форматы: .JPG для графических данных, .MPG для видеоданных, .МР3 для звуковых данных.

Если при сжатии данных происходит только изменение структуры, то метод сжатия полностью обратим. Обратимые методы применяются для сжатия любого типа данных. Характерные форматы сжатия без потери информации это GIF, .TIF, .PCX для графических данных, .AVI для видеоданных, .ZIP, .ARJ, .RAR, .LZH, .LH, .CAB для любых типов данных.

Данные различного типа имеют свои оптимальные алгоритмы сжатия.

Алгоритм RLE применим для сжатия графических данных, его эффективность не зависит от объема данных. Для текстовых данных его эффективность не велика. В некоторых случаях он используется для сжатия таблиц, имеющих фиксированную длину полей.

В основу метода положен принцип выявления повторяющихся последовательностей данных и замены их простой структурой, в которой указывается код данных и коэффициент повтора.

Например, для последовательности 1,1,1,123,123,1,33,33,33,33 (всего 10 байт) можно сопоставить таблицу

 

Значение Коэффициент повтора

 

При записи в строку данные имеют вид

1,3,123,2,1,1,33,4 (8 байт)

В данном примере коэффициент сжатия составляет 8/10 (80%).

Программная реализация этого метода является простой и обеспечивает недостаточное сжатие. Наилучшее применение данный алгоритм находит для графических данных, в которых большие одноцветные участки изображения кодируются одинаково.

Алгоритм KWE применяется для сжатия текстовых данных. В данном алгоритме сжатые данные помещаются в таблицу имеющую вид словаря. На кодировку слова используется двухбайтовая единица. Алгоритм эффективен для англоязычных текстов и файлов баз данных. Для русского языка, имеющего большое количество приставок, суффиксов окончаний и большую длину слова эффективность метода невысока.

Алгоритм Хаффмана применяется для любого типа данных. В основе метода лежит кодировка битовыми группами. Перед началом сжатия проводится частотный анализ кода документа и выявляется частота повтора каждого символа. Чем чаще встречается тот или иной символ, тем меньшим количеством битов он кодируется.

Рассмотренные алгоритмы в чистом виде на практике не используются, т.к. эффективность каждого из них сильно зависит от начальных условий. Современные средства архивации используют комбинации данных алгоритмов.

Для сжатия данных в операционной системе MS DOS используется программные средства PKZIP, RAR, ARJ, для Windows это WinZIP, WinARJ, WinRAR, 7-Zip, ZipItFast!.

Эти программные средства кроме простого сжатия файлов способны извлекать файлы из архивов, создавать новые архивы, добавлять файлы в имеющийся архив, создавать самораспаковывающиеся архивы, тестировать целостность структуры архива, полностью или частично восстанавливать поврежденные архивы, защищать архивы от просмотра и несанкционированной модификации, создание так называемого распределенных архивов, просматривать архивный файл без извлечения их из архива, защищать паролем архивный файл, выбирать и настраивать коэффициент сжатия информации.

Самораспаковывающиеся архивы. При передаче архивированного файла потребителю предполагается наличие у него программного средства необходимого для извлечения исходных данных из архива. Если таких средств у него нет, создается самораспаковывающийся архив. Он создается на базе обычного архива путем присоединения к нему небольшого программного модуля. Сам архив получает расширение .EXE, характерное для исполняемых файлов. После создания такого архива его необходимо проверить, т.е. выполнить запуск файла путем щелчка мыши, после чего распаковка на его компьютере произойдет автоматически.

Распределенные архивы. Бывают случаи, что файл в архивированном виде имеет размер больший, чем емкость дискеты. В этом случае, возможно его распределение в виде фрагментов на нескольких носителях.

Некоторые программные средства архивации, например WinZIP сразу выполняет разбиение на дискету, другие WinARJ, WinRAR выполняют предварительное разбиение архива на фрагменты заданного размера на жестком диске. Затем их можно скопировать на внешние носители.

Известно, что дискета является достаточно ненадежным носителем, поэтому лучше хранить копию архива в двух экземплярах.

Защита архивов осуществляется путем создания пароля. Так как программные средства, используемые для восстановления утраченного пароля или взлома защиты информации, используют методы прямого перебора, надо стремиться максимально увеличить число символов в пароле, использовать знаки препинания и символы русского алфавита.

Просмотр архивного файла без его распаковки необходим для обеспечения безопасности при работе с незнакомыми файлами либо файлами, поступившими через Интернет.

Уплотнение носителей происходит за счет сжатия данных путем изменения их структуры. При уплотнении носителей никакого физического увеличения емкости не происходит. Пользователь практически не замечает разницы в работе с обычным и уплотненным носителем. Степень сжатия данных во многом определяется типом данных и поэтому наблюдаемое приращение емкости носителя не является величиной постоянной и непрерывно меняется в зависимости от того, какой тип данных добавляется на носитель.

Уплотнению может подвергаться как винчестер, так и дискета. При этом не обязательно уплотнять все дисковое пространство. Соотношением между уплотненным и неуплотненным пространством можно управлять.

При уплотнении дисков на физическом диске создается скрытый файл, предназначенный для записи сжатых данных. Данный файл называется файлом сжатого тома, а физический диск, на котором он размещен, называют несущим диском. Если файл сжатого тома занимает часть несущего диска, то несущий диск делается скрытым, а файл сжатого тома операционной системой распознается как уплотненный диск. Весь обмен информации с уплотненным диском происходит под управлением специальной программы –драйвера сжатого тома.

Уплотнение носителей имеет и негативную сторону. Заметно снижается надежность хранения сжатых данных в случае повреждения аппаратного или программного обеспечения.

 

– Конец работы –

Эта тема принадлежит разделу:

Обработка текстовой

Обработка текстовой информации Курс лекций...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Сжатие данных

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Наборно-отливной способ набора
Наборно-отливной способ используется для набора оригинальных наборных форм, предназначенных для высокой печати. Он делится на: ручной набор, ручной строкоотливной крупнокегельный и

Строконаборный буквоотливной (монотипный) набор
В основе монотипного набора лежал принцип отделения набора (изготовления перфорированной ленты) от процесса отливки выключенных по формату строк, состоящих из отдельных литер. Перфорирован

Наборно-фотографический способ набора
  Фотонабор процесс получения выключенных строк текста на фотоматериале с использованием специального фотонаборного оборудования (4 поколения). К первому поколению

Компьютерный способ набора
  Автоматизированное рабочее место (АРМ) на базе компьютерных издательских систем (КИС), оснащенных современным комплектом оборудования, системным программным обеспечением, прикладным

Аппаратное обеспечение.
Материнская плата (системная) представляет собой печатную плату, на которой расположены контроллеры и соединители и на которую устанавливаются другие системные компоненты.

Дисковые накопители.
1. Накопители на гибких магнитных дисках (флоппи диски, FDD). В основе этих устройств хранения лежит гибкий магнитный диск, помещенный в твердую оболочку. Существует три типа накопителей на

Видеоподсистема.
Видеокарта. Обработкой видео-данных занимается видеокарта. Это устройство, преобразующее изображение, находящееся в памяти компьютера, в видеосигнал для монитора. В процессе развит

Дисплеи на жидкокристаллических панелях LSD.
Принцип получения изображения основан на том, что жидкие кристаллы способны менять свою ориентацию в пространстве под действием света и тем самым изменять свойства данного светового луча. Тонкий сл

Устройства ввода
Клавиатура -- одно из самых распространенных на сегодня устройств ввода информации в компьютер. Она позволяет нажатием клавиш вводить символьную информацию. Ключевой принцип работы

Струйные принтеры
Принцип, лежащий в основе струйной печати с использованием жидких чернил, состоит в нанесении капелек чернил непосредственно на поверхность бумаги, пленки или ткани. Импульсная печатающая головка с

Контроль
ОС контролирует работу компьютера. Она отслеживает стадии выполнения каждой задачи, а также может вести журнал учета – кто использует компьютер, какие программы были запущены, наблюдались ли случаи

Файловая система
Одной из первостепенных задач операционной системы следует считать управление дисковым накопителем и доступом к нему. Не случайно ранние ОС для ПК содержали в своем названии аббревиатуру DOS (Disk

Операционная система MS DOS
ОС получила распространение вместе с популярным семейством IBM совместимых компьютеров. Первая версия вышла в 1981 г. вместе с первой модель

Операционная система Microsoft Windows
Возможность Описание Преимущество Надежность Ядро Windows В основе системы Windows X

Представление информации в компьютере
В компьютерах используется двоичная система измерений, т.к. конструкция вычислительной техники тем проще и надежнее, чем меньше символов в системе исчисления, применяемых для кодирования информации

Кодирование русского текста
В первых ЭВМ для кодирования текста отвели 7 бит. 27=128. Этого количества вполне хватало для кодирования всех строчных и прописн

Типы файлов
Все файлы условно можно разделить на две части -- текстовые и двоичные. Текстовые файлы -- наиболее распространенный тип данных во всем компьютерном мире. Для хранения каж

Форматы текстовых файлов
Текстовые файлы -- наиболее распространенный тип данных в компьютерном мире. Существуют несколько проблем, связанных с текстовыми файлами. П

Проверка диска
Запуск — правой кнопкой мыши на диске выбираем Свойства — Сервис — Проверка диска. Это крайне важная программа для обслуживания жесткого диска. Ее необходимо запускать в идеале хотя бы оди

Свойства компьютерных вирусов
Сейчас применяются персональные компьютеры, в которых пользователь имеет свободный доступ ко всем ресурсам машины. Именно это открыло возможность для опасности, которая получила название компьютерн

Загрузочные вирусы
Рассмотрим схему функционирования очень простого загрузочного вируса, заражающего дискеты. Что происходит, когда вы включаете компьютер? Первым делом управление передается программе начальной загру

Файловые вирусы
Рассмотрим теперь схему работы простого файлового вируса. В отличие от загрузочных вирусов, которые практически всегда резидентные, файловые вирусы совсем не обязательно резидентные. Рассмотрим схе

Полиморфные вирусы
Полиморфный вирус- это вид компьютерных вирусов представляется на сегодняшний день наиболее опасным. Полиморфные вирусы — вирусы, модифицирующие свой код в зараженных программах таким обра

ПУТИ ПРОНИКНОВЕНИЯ ВИРУСОВ В КОМПЬЮТЕР
“Основными путями проникновения вирусов в компьютер являются съемные диски (гибкие и лазерные), а также компьютерные сети. Заражение жесткого диска вирусами может произойти при загрузке программы с

ПРИЗНАКИ ПОЯВЛЕНИЯ ВИРУСОВ
При заражении компьютера вирусом важно его обнаружить. Для этого следует знать об основных признаках проявления вирусов. К ним можно отнести следующие: ¨ прекращение работы или неправи

ОБНАРУЖЕНИЕ ВИРУСОВ
Чаще всего вирусы обнаруживают обычные пользователи, которые замечают те или иные аномалии в поведении компьютера. Они, в большинстве случаев, не способны самостоятельно справиться с вирусом, необх

РЕКОМЕНДАЦИИ ПОЛЬЗОВАТЕЛЮ
Для того, чтобы не подвергнуть компьютер заражению вирусами и обеспечить надежное хранение информации на дисках, необходимо соблюдать следующие правила: ¨оснастите сво

Локальные сети
Локальная сеть, как правило, объединяет несколько компьютеров в пределах ограниченного территориального пространства — комнаты, отдела, здания. Структура локальной сети подчинена факторам.

История создания Internet
Можно сказать, что Internet появился в 1969 году, когда ARPA (Агентство передовых исследовательских проектов) Министерства обороны США создало сеть, которая должна была обеспечить связь с исследова

Адреса и домены
Каждый узел в Internet имеет уникальный адрес вида: ххх.ххх.ххх.ххх, где ххх —- числа от 0 до 255. Этот адрес называют IP-адресом (Internet Protocol Address). И даже вашему компьютеру, когда

Сервисы Internet
В компьютерной сети посредником между человеком и Internet, служит, с одной стороны, компьютер со специальными программами, а с другой стороны, между базой данных (информацией) и линиями связи — се

Общая информация о сервисах Internet
TCP/IP позволяет только передавать информацию, а использованием ее занимаются сервисы, которые могут по-разному распоряжаться информацией Польза от Internet зависит от того, насколько эффективными,

WWW — система гипертекста
Самый популярный сервис Internet. Основа WWW — гипермедийный документ, т. е. документ, в котором каждый элемент может являться ссылкой на другой документ или его часть. Ссылки организованы т

Издательско-полиграфическая система измерений
  В полиграфии наряду с метрической используется издательско-полиграфическая система измерений (типографская и англо-американская). Типографская система измерений

Выбор формата издания
  Все виды печатных изданий выпускают в установленных стандартом (ГОСТ 5773 — 90) форматах. Для книжно-журнальной продукции используется листоваябумага стандартных ра

Выбор формата для книг и журналов
В основу типизации книжно-журнальных форматов положены следующие основные принципы: — полиграфические и издательские особенности каждого вида издания — характер текста (проза, стихи, техни

Выбор полей и формата полосы набора
  Формат наборной полосы— площадь запечатанной части страницы издания, указываемая размером ширины полосы (форматом набора) и высоты полосы в квадратах или мм. Формат наборной полосы

Garamond
Важнейшими графическими элементами, из которых построены буквы шрифта, являются элементы, приведенные на рис. 1.  

Система описания шрифтов PANOSE
  Разработанная фирмой ElseWare, система классификации шрифтов PANOSE, в отличие от других систем, оперирует не описательными характеристиками дизайна всего шрифта, а отдельными наибо

Засечки
Засечками называют слегка расширяющиеся росчерки на концах штрихов. Одним из основных принципов классификации шрифтов является разделение их на шрифты с засечками и шрифты без засечек.

PostScript Type1
  Каждый символ шрифта можно представить как совокупность фрагментов некоторых кривых. С математической точки зрения для описания фрагмента кривой достаточно указать небольшое количес

Adobe Multiple Master
Формат Multiple Master представляет собой PostScript-шрифт, который позволяет динамически изменять такие параметры как насыщенность, ширину, начертание и оптический размер. Данные характеристики оп

Другие шрифты
Adobe Type 3 Спецификация шрифта Type 3 была создана Adobe, однако, сделав ее доступной для независимых производителей, сама Adobe шрифтов Type 3 никогда не распространяла. Формат проще в

Внедрение шрифтов в PostScript-файл
PostScript-шрифты Adobe Type 1 и Type 3 могут быть непосредственно внедрены в PostScript-файл, не претерпевая никаких преобразований формата. Со шрифтами TrueType более сложная ситуация. PostScript

Почему не стоит удалять шрифты Type1 из вашей библиотеки?
Во-первых, за счет большего числа степеней свободы PostScript-линия не имеет изломов в точках сопряжения фрагментов, тогда как для TrueType больший или меньший перелом линии в точке стыковки двух с

TrueType
  Фирма Apple совместно с фирмой Microsoft разработали новую технологию шрифтов. Apple должна была разработать общую концепцию и систему работы со шрифтами, a Microsoft взяла на себя

OpenType
  Новый шрифтовой формат OpenType был разработан совместно компаниями Adobe и Microsoft. Формат OpenType является расширением формата TrueType. Шрифты OpenType по существу яв

Другие форматы
Кроме наиболее распространенных форматов PostScript Туре 1, TrueType и OpenType существует множество других форматов представления шрифтов, имеющих определенные области применения. Как правило, каж

Шрифтовые программы
  Существует большое количество программ-утилит, которые можно разделить на две группы: программы для пользователей шрифтов и программы для создателей шрифтов. Первую группу

Основные требования к шрифту
Важнейшие требования к шрифту как элементу оформления книги — удобочитаемость, художественные достоинства, технологичность и экономичность. Критерии удобочитаемости (reada

Единицы измерения издательско-полиграфической продукции
  Объем издания— величина, определяемая либо числом страниц в издании, либо числом учетно-издательских листов в нем, либо числом печатных листов. Уче

Концовка
Украшение с изображением сюжетно-тематического или орнаментального характера, помещаемое на концевой странице издания или его структурной части Открытые, закрытые, в оборку (открытая, закр

Общие правила текстового набора на русском языке
Межсловные пробелы внутри одной строки и в смежных строках при текстовом наборе не должны резко различаться между собой. Нормальный пробел между словами должен быть равен полукегельной. Увеличение

Правила набора текстов 1-2 групп сложности
К 1-й группе сложностиотносится простой (сплошной) текст и текст с небольшими (до 10%) усложнениями и выделениями. 2-я группа сложности— это набор усложне

Бодро оперся, другой поднял меткую
кость Бывают случаи, когда стих, содержащий большое число стоп, образует очень длинные строки. Такие стихи делят на два, а иногда на три строчки. По форме такой набор похож на набор двухме

Особенности набора драматических произведений
Драматические произведения — это пьесы, предназначенные для театрализованных постановок (драмы, комедии, трагедии, водевили и т.п.). Для воспроизведения драматических произведений использу

Особенности набора библиографии
Библиографическое описание — особый вид текста, в котором в определенной последовательности приводятся основные данные об издании. Библиографическое описание выпускается отдельным изданием

Основные правила набора иностранных текстов
Правило набора текста на языках национальностей, использующих алфавит на русской графической основе, те же, что и для набора русских текстов. При наборе на языках, построенных на латинской графичес

Термины, условные знаки, знаки-эмблемы, используемые в словарях
Термины бывают едиными для всех словарей и специальными. Рассмотрим некоторые часто повторяющиеся термины. Вокабула(лат. — название). В словарях — заглавное слово словарно

Технико-оформительские правила набора выводов и таблиц
Выводы и таблицы в одном издании должны быть набраны единообразно по применению шрифтов и линеек, размерам однотипных заголовков, разбивке между строками, по оформлению всех элементов и частей табл

Математические формулы
Необходимо соблюдать следующие основные правила. Набирать цифры в формулах прямым шрифтом, например 2ах; Зу. Сокращенные тригонометрические и математические термины, например sin, cos, tg,

Однострочные и многострочные формулы
В однострочных формулах основную строку (без индексов и приставных знаков) следует набирать шрифтом того же кегля, что и основной текст издания. Середина кегля всех букв, цифр и знаков осн

Индексы и показатели степени
В формулах встречаются индексы первого порядка (индексы) и индексы второго порядка (субиндексы и супраиндексы — индекс к индексу). В большинстве формул, однострочных и многострочных, содер

Крупнокегельные знаки
Знак корня √ должен быть по кеглю на 2 п. больше кегля шрифта, которым набирается подкоренное выражение. Линейка корня набирается двухпунктовой линейкой, по длине равной подкоренному

Химические формулы
Сокращенные обозначения химических элементов набираются прямого начертания того же кегля, что и основной текст. От предыдущих и последующих элементов формулы они не отбиваются. Правила наб

Усложненного текста и текста с иллюстрациями
Основные правила книжной верстки следующие: 1. Полные полосы конкретного издания должны быть одинаковы по высоте, т.е. содержать одинаковое число строк основного набора. При заверстке иллю

Технологические особенности журнальной верстки
Все правила книжной верстки действительны и для журналов с одноколонным набором, некоторая специфика заключается в верстке многоколонного набора. Верстка каждой колонки выполняется по расс

Особенности газетной верстки
Композиция газетной полосы.Отдельные части газетной полосы имеют характерные названия, связанные с расположением статей или иллюстраций в газете. Каждая газета начинается

ЭЛЕКТРОННЫЕ ИЗДАНИЯ
  ЭИ — это хранящиеся в электронной форме книги, журналы, газеты, распространяемые в любом текстовом, гипертекстовом формате или сжатом формате, и снабженные при необходимости мультим

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги