рефераты конспекты курсовые дипломные лекции шпоры

Раздел Философия
/
Вид работы: Лекции
/
Устройства ввода и передачи текстовой информации

Реферат Курсовая Конспект

Выберите учебное заведение

Устройства ввода и передачи текстовой информации

Устройства ввода и передачи текстовой информации - Лекция, раздел Философия, Лекции по курсу Техника и технология средств массовой информации печатные издания На Стадии Допечатной Подготовки Изданий Пользователю Предоставляется Большое ...

На стадии допечатной подготовки изданий пользователю предоставляется большое многообразие средств ввода новой информации.

Клавиатурный ввод текстовой информации. В данном случае, как правило, используется стандартная клавиатура ПЭВМ, предусматривающая не только ввод текстового материала, но и управление функциональными возможностями как самой ПЭВМ, так и применяемых программных средств.

Процесс клавиатурного ввода данных можно рассматривать как кодирование множества знаков в машинодоступной форме. Собственно кодирование знаков в системах обработки текста осуществляется на двух уровнях машинного представления, а именно: знака, выраженного в цифровой комбинации, и его начертания. Любая система ввода и последующей обработки текста предполагает его вывод на соответствующий носитель информации (бумагу, пленку, формный материал). Тем самым при выводе обеспечивается широкий доступ к разнообразным гарнитурам и начертаниям шрифтов.

Клавиатурный ввод текстовой информации обеспечивается программой-драйвером операционных систем ПЭВМ и разнообразными программами, получившими название текстовых редакторов или текстовых процессоров.

В результате клавиатурного ввода формируется текстовой электронный файл, в котором символы представляются в виде двоичных кодов стандартной формы (ASCII, КОИ-8, ANSI, двухбайтовый UNICOD).

Автоматизированный ввод текстовой информации на основе использования технологий распознавания символов (технологий OCR). Значительная часть авторских экземпляров рукописей поступает в издательства или редакции в машинописном виде (в том числе распечатанных на принтерах, печатающих машинках и т. д.) Некоторые материалы поступают в редакцию по факсам. Применяемые интеллектуальные информационные технологии автоматизированного ввода текстовой информации базируются на методах распознавания символов (текста).

Системы распознавания весьма разнообразны, но в их основе лежит общий принцип преобразования просканированного изображения печатной страницы в последовательность двоичных кодов символов исходного текстового документа. Распознавание текста осуществляется с помощью модулей локализации текстовых объектов. При этом используется аналитический метод, основанный на распознавании отдельных символов во входной строке и работающий по следующей схеме:

многовариантное разделение входной строки для обхода некачественных изображений (разрывы и слияния символов);
распознавание полученных компонентов (или подкомпонентов) с запоминанием уровней соответствия (доверия полученным результатам);
контекстный анализ на базе просмотра словаря; он позволяет выбрать наилучшие варианты, вычисляя наименьшую дистанцию соответствия между полученным словом и содержимым словаря.

Реальные тексты могут содержать множество встроенной графической информации — водяные знаки, фоновые рисунки, иллюстрации и т. п. В этих случаях локализация текста становится сложной задачей для системы распознавания. Определенные сложности возникают и из-за наличия рисунков, диаграмм, необычного фона. Распознавание также осложняется особенностями и самого текста — размерами, толщиной, видом шрифта, фоном и позиционированием.

Другая проблема связана с последовательностью процесса распознавания: сканирования текста, выделения текстовых блоков, сегментации на линии и символы, распознавания, контекстного анализа, перевода текста в электронный формат. Ошибка на любом этапе приводит к неверному результату в целом. Для устранения опасности ошибки на ранних этапах определенные решения переносятся на более поздний этап процесса распознавания. По этой причине модуль выделения текстовых блоков определяет только самые главные особенности текстовых компонентов и использует их для выбора набора компонентов, которые потенциально содержат строки текста. Модуль распознавания работает по той же схеме. Прежде всего, генерируется гипотеза разделения входной строки текста. Далее к каждой полученной части применяют алгоритм распознавания, что дает вероятные символы, сопоставляемые с данной частью изображения входной строки. Затем отбирают гипотезы разделения на этапе контекстного анализа, минимизируя отличия слова от содержимого словаря.

При реализации современных систем распознавания текста обычно используются два базовых метода: матричное сопоставление и выделение особенностей.

Метод матричного сопоставления, наиболее простой и распространенный, основан на сравнении того, что «видит» сканер, с библиотекой символьных матриц или шаблонов. В том случае, когда изображение совпадает с каким-либо заранее заданным шаблоном точек с определенным уровнем соответствия, программа оптического распознавания ставит изображению в соответствие символ.

Метод выделения особенностей, известный также как ICR (Intelligent Character Recognition — интеллектуальное распознание символов) или TFA (Topological Feature Analysis — топологический анализ особенностей), не требует строгого соответствия изображений заранее заданным шаблонам. Программы, основанные на данном методе, выделяют основные особенности изображения, такие, как открытые и замкнутые фигуры, диагональные линии, места пересечений и т.д., и сравнивают полученные результаты с библиотекой особенностей символов. Этот метод более гибок, чем матричное соответствие, поскольку может распознавать большее число шрифтов.

Для систем распознавания (OCR) важно не только распознавать текст на микроуровне (т. е. символы алфавита), но и обрабатывать текст на макроуровне, т. е. выделять предложения, абзацы, колонки, таблицы, буквицы, поля, рисунки и т. п. Обработка текста на макроуровне является сложной семантической задачей и требует семантического и стилевого анализа.

Обычно технологии распознавания символов и текста реализуются в виде отдельных программ. В настоящее время в основном используются программы распознавания символов FineReader и CuneiForm.

Речевой ввод текстовой информации. В последние годы все большее распространение получают технологии речевого ввода информации.

Как известно, любое устное сообщение может быть представлено последовательностью фонем и пауз между ними. Поэтому распознавание речи может осуществляться на уровне объединения фонем в слова. Каждое слово при этом рассматривается как элементарный символ речевого сообщения. Распознавание слов происходит в памяти ЭВМ путем сравнения их с эталонами, хранящимися в памяти. Словари эталонов могут насчитывать до нескольких десятков единиц. Главная трудность в реализации подобных устройств — распознавание речи, различающейся (при одном и том же содержании) дикцией человека, интонацией, скоростью произнесения фраз. В настоящее время наилучшие результаты получены с помощью устройств, которые не проводят сразу точное сравнение речевого сигнала с моделью, а отыскивают наиболее близкую по определенному критерию и только затем приближаются к точному соответствию.

Современные устройства речевого ввода делятся на устройства распознавания речи и устройства идентификации говорящего. В рассматриваемых здесь приложениях особый интерес представляют первые. Процедура распознавания при этом сводится к сравнению сигнала на входе устройства с эталонами и определению для каждого эталона меры сходства. Обычно в известных системах в качестве речевого сегмента выбирается слово, так как для него сравнительно просто определить начало и конец, т. е. границы. В этом случае объем словаря соответствует количеству распознаваемых слов.

Основная стратегия решения задачи распознавания речи базируется на заблаговременном формировании информационных описаний речевых сегментов, которые играют роль эталонов.

Аппаратно-программные средства, в рамках которых реализуются программы распознавания речи, называются речевыми процессорами или анализаторами.

Новые программы распознавания речи благодаря усовершенствованным алгоритмам, а также появлению мощных цифровых процессоров и цифровых сигнальных процессоров (DSP) могут работать в операционных средах Windows, OS/2 и других ОС ПЭВМ. Созданы коммерческие программные пакеты для диктовки, распознающие до 30 000 слов (словарный запас, достаточный для обеспечения определенной профессиональной деятельности в редакционно-издательских и подобных системах). В качестве примера можно привести систему Voice Type Dictation, ориентированную на диктовку и редактирование больших текстовых документов.

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

Лекции по курсу Техника и технология средств массовой информации печатные издания

Лекции по курсу... Техника и технология средств массовой информации печатные издания... Лекция...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Устройства ввода и передачи текстовой информации

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Изобретение книгопечатания в Китае и Европе. Появление линотипа
Попытки размножить текст не рукописным, а механическим способом предпринимались еще в глубокой древности, например, в Древней Месопотамии небольшие тексты с рисунками размножали с помощью штампов.

Этапы производства печатной продукции
При производстве печатной продукции можно выделить следующие этапы: набор текста, воспроизведение изобразительных материалов, макетирование, верстка, перенос изображения на носитель (процесс печати

Современная технология допечатных процессов
Вспомним, как делали газеты в шестидесятые-семидесятые годы. Оригинал авторской рукописи прочитывался редакционными работниками, подвергался правке, в нем указывались формат набора, шрифты, абзацы,

Аппаратное обеспечение допечатной подготовки
Основными компонентами систем издательских комплексов являются: комплекс технических средств (КТС) и программное обеспечение (ПО. Комплекс технических средств — это набор технически

Правила набора текстовых материалов
До появления компьютеров текстовые материалы в машинописном виде поступали в типографию, где профессиональные наборщики на клавиатуре линотипов или наборных автоматов заново воспроизводили текст. В

Изобразительный материал
Технологии ввода изображений. Ввод изображений в ПЭВМ осуществляется на основе сканирования оригиналов иллюстративных материалов, использования цифровых фотокамер или путем создания рисун

Макетирование и верстка
С появлением компьютерных технологий, как уже было отмечено, процесс верстки переместился из типографии в редакцию и по времени совместился с процессом макетирования. Как

Воспроизведение изобразительных оригиналов
Как было сказано ранее, изобразительные оригиналы можно классифицировать по следующим основаниям. Вид изобразительного оригинала: – черно-белая графика (чертежи, штриховые

Требования к исходным изобразительным оригиналам
Существует неизменное правило: чем выше качество оригинала, тем лучшим будет и оттиск. Поэтому когда в качестве оригинала берется копия изображения (ксерокопия, фотокопия, полиграфическая и др.) вр

Стохастическое растрирование
В последнее время ведущие зарубежные полиграфические компании прилагают немало усилий, чтобы улучшить качество воспроизведения за счет изменений в допечатной подготовке издания. Прежде всего, это и

Регулярный растр Стохастический растр
Считается, что при стохастическом растрировании можно увеличивать толщину красочного слоя, по сравнению с традиционной печатью, что повышает контраст изображения. А именно в газетной печати за счет

Сравнительные характеристики традиционного фотохимиграфического и современного электронного способа обработки изобразительных оригиналов
В докомпьютерных технологиях ввода и обработки изобразительных оригиналов существовало два основных способа ввода. Один из них — механическое копирование. Оно производилось на специальном ст

Основные цветовые системы
Цвета и цветовые различия могут быть выражены с помощью различных математических моделей. Наиболее часто на практике используются три модели описания цвета: RGB, CMYK, Lab. Модель RGB.

Цифровые форматы хранения растровой и векторной графики
Существует множество различных форматов для сохранения изображений, и каждый имеет свои преимущества и недостатки. Из растровых форматов наиболее распространены TIFF, GIF и JPEG. О

Цифровые фотоаппараты
Новые цифровые фотокамеры, обладающие более высоким разрешением, разнообразными ручными настройками и меньшей стоимостью, бросают вызов пленочным аппаратам. При переходе на цифровую технол

Внешний вид печатного издания. Предпечатная подготовка издания
В принципе, все перемены, все элементы и приемы макетирования служат главной цели: читатель при чтении газеты не может, не должен испытывать дискомфорта. Повседневная практика убедительно подтве

Моделирование
Главенствующую роль в серьезном типе изданий играет содержание. Необходимость «отвлечься» на содержательную составляющую вполне объективна: форма, как известно, — способ существования содержания,

Дизайн газеты
Логотип газеты и первая полоса. Специфика первой полосы заключается в том, что на ней изначально остается меньше пространства: логотип съедает значительную часть полосы. И эт

Предпечатная подготовка издания
Предпечатная подготовка издания включает в себя комплекс процедур, направленных на подготовку издания к требованиям конкретной технологии печати и может состоять из нескольких шагов. Сп

Способы передачи готового макета на печать
Способ передачи макета на печать диктуется конкретной ситуацией. Если печать на ризографе, то макет может быть передан на бумаге. Если станция верстки имеет компьютерный интерфейс с ризографом, то

Интернет-источники
Игнатов К. Дагерротип конца ХХ века.// Курсив. — 1996. — № 2. — http://www.kursiv.ru/kursiv/topics/prepress.html. Стефанов С. Технологии цветоделения // www.aqualon.ru.

Аппаратно-программный комплекс оборудования редакций
Комплекс технических средств — это набор технических средств, необходимых для поддержки деятельности пользователей — сотрудников редакции или издательства. К таким средствам относят:

Организация вычислительных сетей
Компьютерная (вычислительная) сеть — совокупность компьютеров и терминалов, соединенных с помощью каналов связи в единую систему, удовлетворяющую требованиям распределенной обработки данных.

Антивирусная защита
Антивирусная защита была всегда актуальным вопросом. Вирусы — вредные программы, которые мешают нормальной работе компьютера. Раньше вирусы распространялись только через дискеты. Поэтому на каждом

Системы архивирования
Архивирование данных — крайне важная процедура, имеющая целью: – создание страховых копий данных на случай выхода из строя компьютера или жесткого диска либо несанкционированного (случайно

Интернет-источники
Все о модемах. Как устроен и работает модем. Валуйский B. Аналоговая цветопроба: офисный пробопечатный станок или дорогая игрушка? // Курсив, № 3 (11), 1998.

Интернет в организации редакционно-издательских процессов. Централизованный и децентрализованный выпуск газет
Назначение и принципы создания Интернет. Прообраз сети Интернет был создан в конце 60-х годов по заказу Министерства обороны США. В то время существовало не очень много мощных компьютеров, и

Формные и печатные процессы
Фотоформы. Для начала уточним основные понятия: фотоформа и печатная форма. Фотоформа в полиграфических технологиях — это изобразительный иллюстра

Виды и способы печати
Печатные процессы — комплекс процессов, связанные с процедурой печатания, включающий перенос печатной краски с печатной формы (иногда с использованием промежуточного носителя, например, офсетного ц

В — бумага с оттиском
Принцип высокой печати используется уже более 1000 лет. Первые печатные формы представляли собой плоские, с ровной и гладкой поверхностью деревянные доски, на которых изображение по

Г — бумага с оттиском
Фототипия — это безрастровый способ прямой плоской печати с использованием печатных форм, на которых разделение поверхности печатной формы на печатные и пробельные элементы обеспечивается

Краска, 2 — барабан с формой, 3 — ракельный нож
Способ цифровой печати — технология получения оттисков в печатной машине с использованием переменной печатной формы, изменениями в которой при каждом цикле управляет ЭВМ изда

Послепечатные процессы
Самый простой с точки зрения отделочных операций вид печатной продукции — это листовка. После печати требуется только обрезать технологические поля и упаковать тираж. Однако большинство видов проду

Полиграфические материалы для СМИ
Типографские краски и их характеристики. В зависимости от способа печатания краски делятся на типографские, литографские, офсетные, фототипные, для глубокой печати и т. д.; в

Интернет-источники
Стефанов С. Фотоформы в полиграфии // www.aqualon.ru. Валуйский В. Computer-to-Plate:наши недостатки есть продолжение наших достоинств // Курсив, № 6 (14), 1998. В