рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Устройства ввода и передачи текстовой информации

Устройства ввода и передачи текстовой информации - Лекция, раздел Философия, Лекции по курсу Техника и технология средств массовой информации печатные издания На Стадии Допечатной Подготовки Изданий Пользователю Предоставляется Большое ...

На стадии допечатной подготовки изданий пользователю предоставляется большое многообразие средств ввода но­вой информации.

 

Клавиатурный ввод текстовой информации. В данном случае, как правило, используется стандартная клавиатура ПЭВМ, предусматри­вающая не только ввод текстового материала, но и управление функ­циональными возможностями как самой ПЭВМ, так и применяемых про­граммных средств.

Процесс клавиатурного ввода данных можно рассматривать как ко­дирование множества знаков в машинодоступной форме. Собственно кодирование знаков в системах обработки текста осуществляется на двух уровнях машинного представления, а именно: знака, выраженного в цифровой комбинации, и его начертания. Любая система ввода и по­следующей обработки текста предполагает его вывод на соответству­ющий носитель информации (бумагу, пленку, формный материал). Тем самым при выводе обеспечивается широкий доступ к разнообраз­ным гарнитурам и начертаниям шрифтов.

Клавиатурный ввод текстовой информации обеспечивается програм­мой-драйвером операционных систем ПЭВМ и разнообразными про­граммами, получившими название текстовых редакторов или тексто­вых процессоров.

В результате клавиатурного ввода формируется текстовой элек­тронный файл, в котором символы представляются в виде двоичных ко­дов стандартной формы (ASCII, КОИ-8, ANSI, двухбайтовый UNICOD).

 

Автоматизированный ввод текстовой информации на основе исполь­зования технологий распознавания символов (технологий OCR). Зна­чительная часть авторских экземпляров рукописей поступает в издатель­ства или редакции в машинописном виде (в том числе распечатанных на принтерах, печатающих машинках и т. д.) Некоторые материалы по­ступают в редакцию по факсам. Применяемые интеллектуальные инфор­мационные технологии автоматизированного ввода текстовой инфор­мации базируются на методах распознавания символов (текста).

Системы распознавания весьма разнообразны, но в их ос­нове лежит общий принцип преобразования просканированного изо­бражения печатной страницы в последовательность двоичных кодов сим­волов исходного текстового документа. Распознавание текста осуществляется с помощью модулей локализации текстовых объектов. При этом используется аналитический метод, основанный на распоз­навании отдельных символов во входной строке и работающий по сле­дующей схеме:

  • многовариантное разделение входной строки для обхода некачест­венных изображений (разрывы и слияния символов);
  • распознавание полученных компонентов (или подкомпонентов) с за­поминанием уровней соответствия (доверия полученным результатам);
  • контекстный анализ на базе просмотра словаря; он позволяет вы­брать наилучшие варианты, вычисляя наименьшую дистанцию соответ­ствия между полученным словом и содержимым словаря.

Реальные тексты могут содержать множество встроенной графиче­ской информации — водяные знаки, фоновые рисунки, иллюстрации и т. п. В этих случаях локализация текста становится сложной задачей для си­стемы распознавания. Определенные сложности возникают и из-за на­личия рисунков, диаграмм, необычного фона. Распознавание также осложняется особенностями и самого текста — размерами, толщиной, видом шрифта, фоном и позиционированием.

Другая проблема связана с последовательностью процесса распоз­навания: сканирования текста, выделения текстовых блоков, сегмента­ции на линии и символы, распознавания, контекстного анализа, пере­вода текста в электронный формат. Ошибка на любом этапе приводит к неверному результату в целом. Для устранения опасности ошибки на ранних этапах определенные решения переносятся на более поздний этап процесса распознавания. По этой причине модуль выделения текстовых блоков определяет только самые главные особенности текстовых ком­понентов и использует их для выбора набора компонентов, которые по­тенциально содержат строки текста. Модуль распознавания работает по той же схеме. Прежде всего, генерируется гипотеза разделения вход­ной строки текста. Далее к каждой полученной части применяют алго­ритм распознавания, что дает вероятные символы, сопоставляемые с данной частью изображения входной строки. Затем отбирают гипотезы разделения на этапе контекстного анализа, минимизируя отличия слова от содержимого словаря.

При реализации современных систем распознавания текста обыч­но используются два базовых метода: матричное сопоставление и вы­деление особенностей.

Метод матричного сопоставления, наиболее простой и распростра­ненный, основан на сравнении того, что «видит» сканер, с библиотекой символьных матриц или шаблонов. В том случае, когда изображение совпадает с каким-либо заранее заданным шаблоном точек с определен­ным уровнем соответствия, программа оптического распознавания ставит изображению в соответствие символ.

Метод выделения особенностей, известный также как ICR (Intelli­gent Character Recognition — интеллектуальное распознание симво­лов) или TFA (Topological Feature Analysis — топологический анализ особенностей), не требует строгого соответствия изображений заранее заданным шаблонам. Программы, основанные на данном методе, вы­деляют основные особенности изображения, такие, как открытые и за­мкнутые фигуры, диагональные линии, места пересечений и т.д., и срав­нивают полученные результаты с библиотекой особенностей символов. Этот метод более гибок, чем матричное соответствие, поскольку может распознавать большее число шрифтов.

Для систем распознавания (OCR) важно не только распознавать текст на микроуровне (т. е. символы алфавита), но и обрабатывать текст на макроуровне, т. е. выделять предложения, абзацы, колонки, таблицы, бук­вицы, поля, рисунки и т. п. Обработка текста на макроуровне являет­ся сложной семантической задачей и требует семантического и стиле­вого анализа.

Обычно технологии распознавания символов и текста реализуют­ся в виде отдельных программ. В настоящее время в основном исполь­зуются программы распознавания символов FineReader и CuneiForm.

Речевой ввод текстовой информации. В последние годы все большее распространение получают технологии речевого ввода информации.

Как известно, любое устное сообщение может быть представлено последовательностью фонем и пауз между ними. Поэтому распознава­ние речи может осуществляться на уровне объединения фонем в слова. Каждое слово при этом рассматривается как элементарный символ ре­чевого сообщения. Распознавание слов происходит в памяти ЭВМ пу­тем сравнения их с эталонами, хранящимися в памяти. Словари этало­нов могут насчитывать до нескольких десятков единиц. Главная трудность в реализации подобных устройств — распознавание речи, разли­чающейся (при одном и том же содержании) дикцией человека, инто­нацией, скоростью произнесения фраз. В настоящее время наилучшие результаты получены с помощью устройств, которые не проводят сра­зу точное сравнение речевого сигнала с моделью, а отыскивают наибо­лее близкую по определенному критерию и только затем приближают­ся к точному соответствию.

Современные устройства речевого ввода делятся на устройства распознавания речи и устройства идентификации говорящего. В рас­сматриваемых здесь приложениях особый интерес представляют пер­вые. Процедура распознавания при этом сводится к сравнению сигна­ла на входе устройства с эталонами и определению для каждого этало­на меры сходства. Обычно в известных системах в качестве речевого сег­мента выбирается слово, так как для него сравнительно просто опре­делить начало и конец, т. е. границы. В этом случае объем словаря со­ответствует количеству распознаваемых слов.

Основная стратегия решения задачи распознавания речи базирует­ся на заблаговременном формировании информационных описаний речевых сегментов, которые играют роль эталонов.

Аппаратно-программные средства, в рамках которых реализуют­ся программы распознавания речи, называются речевыми процессора­ми или анализаторами.

Новые программы распознавания речи благодаря усовершенствован­ным алгоритмам, а также появлению мощных цифровых процессоров и цифровых сигнальных процессоров (DSP) могут работать в операцион­ных средах Windows, OS/2 и других ОС ПЭВМ. Созданы коммерческие про­граммные пакеты для диктовки, распознающие до 30 000 слов (словарный запас, достаточный для обеспечения определенной профессиональной де­ятельности в редакционно-издательских и подобных системах). В качест­ве примера можно привести систему Voice Type Dictation, ориентирован­ную на диктовку и редактирование больших текстовых документов.

 

– Конец работы –

Эта тема принадлежит разделу:

Лекции по курсу Техника и технология средств массовой информации печатные издания

Лекции по курсу... Техника и технология средств массовой информации печатные издания... Лекция...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Устройства ввода и передачи текстовой информации

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Изобретение книгопечатания в Китае и Европе. Появление линотипа
Попытки размножить текст не рукописным, а механическим способом предпринимались еще в глубокой древности, например, в Древней Месопотамии небольшие тексты с рисунками размножали с помощью штампов.

Этапы производства печатной продукции
При производстве печатной продукции можно выделить следующие этапы: набор текста, воспроизведение изобразительных материалов, макетирование, верстка, перенос изображения на носитель (процесс печати

Современная технология допечатных процессов
Вспомним, как делали газеты в шестидесятые-семидесятые годы. Оригинал авторской рукописи прочитывался редакционными работниками, подвергался правке, в нем указывались формат набора, шрифты, абзацы,

Аппаратное обеспечение допечатной подготовки
Основными компонентами систем издательских комплексов являются: комплекс технических средств (КТС) и программное обеспечение (ПО. Комплекс технических средств — это набор технически

Правила набора текстовых материалов
До появления компьютеров текстовые материалы в машинописном виде поступали в типографию, где профессиональные наборщики на клавиатуре линотипов или наборных автоматов заново воспроизводили текст. В

Изобразительный материал
Технологии ввода изображений. Ввод изображений в ПЭВМ осуще­ствляется на основе сканирования оригиналов иллюстративных мате­риалов, использования цифровых фотокамер или путем создания ри­сун

Макетирование и верстка
С появлением компьютерных технологий, как уже было отмечено, процесс верстки переместился из типографии в редакцию и по времени совместился с процессом макетирования. Как

Воспроизведение изобразительных оригиналов
Как было сказано ранее, изобразительные оригиналы можно классифицировать по следующим основаниям. Вид изобразительного оригинала: – черно-белая графика (чертежи, штриховые

Требования к исходным изобразительным оригиналам
Существует неизменное правило: чем выше качество оригинала, тем лучшим будет и оттиск. Поэтому когда в качестве оригинала берется копия изображения (ксерокопия, фотокопия, полиграфическая и др.) вр

Стохастическое растрирование
В последнее время ведущие зарубежные полиграфические компании прилагают немало усилий, чтобы улучшить качество воспроизведения за счет изменений в допечатной подготовке издания. Прежде всего, это и

Регулярный растр Стохастический растр
Считается, что при стохастическом растрировании можно увеличивать толщину красочного слоя, по сравнению с традиционной печатью, что повышает контраст изображения. А именно в газетной печати за счет

Сравнительные характеристики традиционного фотохимиграфического и современного электронного способа обработки изобразительных оригиналов
В докомпьютерных технологиях ввода и обработки изобразительных оригиналов существовало два основных способа ввода. Один из них — механическое копирование. Оно производилось на специальном ст

Основные цветовые системы
Цвета и цветовые различия могут быть выражены с помощью различных математических моделей. Наиболее часто на практике используются три модели описания цвета: RGB, CMYK, Lab. Модель RGB.

Цифровые форматы хранения растровой и векторной графики
Существует множество различных форматов для сохранения изображений, и каждый имеет свои преимущества и недостатки. Из растровых форматов наиболее распространены TIFF, GIF и JPEG. О

Цифровые фотоаппараты
Новые цифровые фотокамеры, обладающие более высоким разрешением, разнообразными ручными настройками и меньшей стоимостью, бросают вызов пленочным аппаратам. При переходе на цифровую технол

Внешний вид печатного издания. Предпечатная подготовка издания
В принципе, все перемены, все элементы и приемы макети­рования служат главной цели: читатель при чтении газеты не мо­жет, не должен испытывать дискомфорта. Повседневная практи­ка убедительно подтве

Моделирование
Главенствующую роль в серьезном типе изданий играет содер­жание. Необходимость «отвлечься» на содержательную составляющую вполне объективна: форма, как известно, — способ существова­ния содержания,

Дизайн газеты
Логотип газеты и первая полоса. Специфика первой полосы заключается в том, что на ней изна­чально остается меньше пространства: логотип съедает значитель­ную часть полосы. И эт

Предпечатная подготовка издания
Предпечатная подготовка издания включает в себя комплекс процедур, направленных на подготовку издания к требованиям конкретной технологии печати и может состоять из нескольких шагов. Сп

Способы передачи готового макета на печать
Способ передачи макета на печать диктуется конкретной ситуацией. Если печать на ризографе, то макет может быть передан на бумаге. Если станция верстки имеет компьютерный интерфейс с ризографом, то

Интернет-источники
  Игнатов К. Дагерротип конца ХХ века.// Курсив. — 1996. — № 2. — http://www.kursiv.ru/kursiv/topics/prepress.html. Стефанов С. Технологии цветоделения // www.aqualon.ru.

Аппаратно-программный комплекс оборудования редакций
Комплекс технических средств — это набор технических средств, не­обходимых для поддержки деятельности пользователей — сотрудников редакции или издательства. К таким средствам относят:

Организация вычислительных сетей
Компьютерная (вычислительная) сеть — совокупность компьютеров и терминалов, соединенных с помощью каналов связи в единую систему, удовлетворяющую требованиям распределенной обработки данных.

Антивирусная защита
Антивирусная защита была всегда актуальным вопросом. Вирусы — вредные программы, которые мешают нормальной работе компьютера. Раньше вирусы распространялись только через дискеты. Поэтому на каждом

Системы архивирования
Архивирование данных — крайне важная процедура, имеющая целью: – создание страховых копий данных на случай выхода из строя компьютера или жесткого диска либо несанкционированного (случайно

Интернет-источники
  Все о модемах. Как устроен и работает модем. Валуйский B. Аналоговая цветопроба: офисный пробопечатный станок или дорогая игрушка? // Курсив, № 3 (11), 1998.

Интернет в организации редакционно-издательских процессов. Централизованный и децентрализованный выпуск газет
Назначение и принципы создания Интернет. Прообраз сети Интернет был создан в конце 60-х годов по заказу Министерства обороны США. В то время существовало не очень много мощных компьютеров, и

Формные и печатные процессы
Фотоформы. Для начала уточним основные понятия: фотоформа и печатная форма. Фотоформа в полиграфических технологиях — это изобразительный иллюстра

Виды и способы печати
Печатные процессы — комплекс процессов, связанные с процедурой печатания, включающий перенос печатной краски с печатной формы (иногда с использованием промежуточного носителя, например, офсетного ц

В — бумага с оттиском
  Принцип высокой печати используется уже более 1000 лет. Первые печатные формы представляли собой плоские, с ровной и гладкой поверхностью деревянные доски, на которых изображение по

Г — бумага с оттиском
Фототипия — это безрастровый способ прямой плоской печати с использованием печатных форм, на которых разделение поверхности печатной формы на печатные и пробельные элементы обеспечивается

Краска, 2 — барабан с формой, 3 — ракельный нож
  Способ цифровой печати — технология получения оттисков в печатной машине с использованием переменной печатной формы, изменениями в которой при каждом цикле управляет ЭВМ изда

Послепечатные процессы
Самый простой с точки зрения отделочных операций вид печатной продукции — это листовка. После печати требуется только обрезать технологические поля и упаковать тираж. Однако большинство видов проду

Полиграфические материалы для СМИ
Типографские краски и их характеристики. В зависимости от способа печа­тания краски делятся на типографские, литографские, офсетные, фототипные, для глубокой печати и т. д.; в

Интернет-источники
  Стефанов С. Фотоформы в полиграфии // www.aqualon.ru. Валуйский В. Computer-to-Plate:наши недостатки есть продолжение наших достоинств // Курсив, № 6 (14), 1998. В

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги