рефераты конспекты курсовые дипломные лекции шпоры

Раздел Программирование
/
Очистка мусора

Реферат Курсовая Конспект

Выберите учебное заведение

Очистка мусора

Очистка мусора - раздел Программирование, СИНТАКСИЧЕСКИЙ И СЕМАНТИЧЕСКИЙ АНАЛИЗ Мусором Будем Называть Вспомогательные Сиволы, Которые Не Являются Нос...

Мусором будем называть вспомогательные сиволы, которые не являются носителями смыслового содержания текста. Такими символами являются символы табуляции ‘t’, символы перевода на новую строку ‘n’, пробелы ‘ ’, комментарии и другие. Эти символы используются только при редактировании исходного текста, когда необходимо соблюдать определённое форматирование текста и повысить читабельность.

На Рис 5.4. Показана схема потоков при очистке мусора

СКАНЕР (Лексический анализатор)

входной поток STDIO

getchar( )

ungetc(liter, stdio)

Рис 5.4.

Реализация процедуры очистки от мусора осуществляется с помощью стандартных функций getchar( ) и ungetc( ) из встроенной стандартной библиотеки <stdio.h>. Ниже приведена функция clear ( ) , которая очищает текст от символов табуляции, переводов строки и пробелов и возвращает очищенный текст во входной поток studio.

#include <stdio.h>

int clear ( )

{

int liter;

while (1) /* цикл по всему входному потоку символов

{

liter = getchar( );

if ( liter = = ' ' | | liter = = ' n ' || liter = = ' t ' )

then ungetc (liter, stdio);

}

Рис 5.5.

Часто в процессорах функцию сканера заменяет синтаксический анализатор, при этом нет необходимости в специальном просмотре исходного текста, который осуществляется на этапе синтаксического анализа. В отличие от синтаксического анализатора, сканер определяет лишь принадлежность символов алфавиту языка и не устанавливает принадлежность языковых конструкций к грамматике.

Проиллюстрируем разработку сканера, используя грамматику арифметических выражений языка ФОРТРАН (в усеченном варианте).

1. <AB> ® T | <AB> + T | <AB> - T

2. T ® O | T*O | T/O | T**O

3. O ® (<AB>) | <Идентификатор> | <Целое без знака>

Функции сканера на этом примере является: внутреннее представление символов арифметического выражения, причем под внутренним представлением будем понимать некий код, который ставится в соответствие идентификаторам, числовым константам и другим объекта языка.

Важно знать, какой идентификатор или его адрес в таблице символов используется в программе. Поэтому вместе с выбором класса или кода символов необходимо в качестве продукта работы сканера иметь ссылку на его адрес.

На рис. 5.6. приведена диаграмма состояний для грамматики G[AB]. На диаграмме представлена посимвольная декомпозиция арифметических выражений с генерацией соответствующего кода символов <идентификатор>, <целое без знака> и литеры “+”, ”-” и др.. Непомеченные дуги на диаграмме соответствуют состоянию ERROR (отсутствие данного символа в словаре грамматики), либо выходу из обработки очередного символа и переходу на старт обработки следующего.

Рис. 5.6. Диаграмма состояний сканера

Пример 5.2.Пусть арифметическое выражение имеет вид :A1*A2 #.

Проиллюстрируем движение по состояниям графа для данного примера:

0 – 2 – 2 – OUT – START – 6 – OUT – START – 2 – 2 – OUT

Семантика сканера. На семантической диаграмме “навешаны” семантические атрибуты: SC — сканирование очередного символа, Ц — адресная генерация кода соответствующего символа.

Реализацию сканера по диаграмме состояний или по графу на рис. 5.6. приведем на языке С. Отметим, что данная реализация универсальна для графов, в которых переходы соответствуют терминальному символу из узла в узел, либо по петле. Поэтому программа для графа 5.3. мало, чем будет отличаться от приведенной ниже.

# include <ctype.h>

# include <stdio.h>

# define ERROR 0

int i = 0;

int num = 0;

/*---------------------------------------------------------------------*/

main()

{

while((i = scaner()) != ERROR) printf(“%d”, i);

}

/*---------------------------------------------------------------------*/

scaner( )

{

int liter;

liter=getchar( );

if (isdigit(liter))

{ while(isdigit(liter = getchar()));

ungetchar(liter);

return(1);

}

else

if (isalpha(liter))

{

while(isnum(liter = getchar()) | | (isalpha(liter));

ungetchar(liter);

return(2);

}

else

switch(liter)

{

case ‘+’: return(3);

case ‘-’: return(4);

case ‘/’: return(5);

case ‘*’: if ((liter = getchar() = = ‘*’)

return(7);

else

{

ungetchar(liter);

return(6);

}

case ‘(’: return(8);

case ‘)’: return(9);

default : ungetchar(liter);

return(ERROR);

}

В приведённом примере реализации сканирования символов грамматики выражений эта процедура сознательно упрощена из методических соображений и чтобы не усложнять реализующую программу , которая в приведённом простом варианте доступна и читабельна.

Опишем дополнительные атрибуты сканера, используя для символов идентификатор и целое алгебру регулярных выражений.

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

СИНТАКСИЧЕСКИЙ И СЕМАНТИЧЕСКИЙ АНАЛИЗ

На сайте allrefs.net читайте: "СИНТАКСИЧЕСКИЙ И СЕМАНТИЧЕСКИЙ АНАЛИЗ"

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Очистка мусора

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

ПРОЦЕССОР ЧИСЛОВЫХ КОНСТАНТ
Приведем грамматику числовых констант в следующем виде G[<Число>]: 1. <Число> ® [+ | -] <Число Без Знака> 2. <Число Без Знака> ® <Десят

Декомпозиция программы при лексическом анализе
Основным функциональным назначением сканера является декомпозиция программы на её терминальные составляющие: идентификаторы, ключевые слова, числовые константы, знаки операций и так далее. Эти язык

Семантика целого числа при сканировании
Для целого в алгоритме предусмотрен генератор условного кода 2. Под кодом здесь понимается класс целых. Часто, при обработки целых требуется не только их указатель(код) целого числа, но и значение

Лексический анализ идентификатора
Выделение идентификаторов кодом 2 не является полной информацией о каждом идентификаторе в отдельности. На этапе лексического анализа информационной характеристикой идентификатора является кортеж &

Лексический анализ операций
Лексический разбор бинарных операций, как правило, ограничивается уже описанным алгоритмом генерации адресного (условного) кода. Следует добавить лишь, что в сгенерированные адреса (ссылки) необход

ОРГАНИЗАЦИЯ ТАБЛИЦ СИМВОЛОВ
Проверка правильности семантики и генерация кода требуют знания характеристик идентификаторов, констант, имён функций (библиотечных и внеших) и т.д. Определение 5.1. Табли

Структуры линейного формата
Для структур линейного формата существует два способа хранения имен. Первый – хранить символы имени в записях таблицы символов рис. 5.10, второй - в записи для имени размещать только указатель на о

Блочные структуры
В некоторых языках один и тот же идентификатор может быть описан и использован много раз в различных блоках и процедурах. Каждое такое описание должно иметь единственный, связанный с ним элемент в

Древовидные структуры
Существует способ представления таблиц с использованием двоичных деревьев Каждый узел дерева представляет собой заполненный элемент таблицы, причем корневой узел является первым элементом. Добавлен

Неупорядоченный поиск
Неупорядоченный поиск – это простейший способ организации таблицы символов. Он состоит в том, чтобы добавлять элементы для аргументов в порядке их поступления, без каких-либо попыток упорядочения.

Бинарный поиск
Поиск может быть выполнен более эффективно, если элементы таблицы упорядочены (отсортированы) согласно некоторому естественному порядку аргументов. Эффективным методом поиска в упорядоченн

Хеш-адресация
Данный метод в целом более эффективен, чем линейные списки, и используется для таблиц символов в большинстве случаев [13]. Схема открытого хеширования (хеш-таблица размера 211) приведена на рис.5.1

Сравнение способов организации таблиц символов
Прямой поиск прост в реализации, но самый неэффективный, т.к. время поиска прямопропорционально размерности таблицы, а количество сравнений в среднем равно половине элементов таблицы. Бинарный поис

РЕКУРСИВНЫЙ СПУСК
Рассмотрим подкласс КС-грамматик - S-грамматики Определение 5.2. S-грамматики — это подкласс контекстно-свободных грамматик, таких что: 1. Правая часть

ДИАГНОСТИКА И НЕЙТРАЛИЗАЦИЯ СИНТАКСИЧЕСКИХ ОШИБОК
Диагностика — установка места возникновения и типа синтаксической ошибки. Кроме того, обработанная ошибка должна быть визуализирована пользователем в виде, удобном для её обнаружения. Нейт

Метод Айронса
Основная идея — по контексту без возврата отбрасывать литеры, которые привели к тупиковой ситуации (когда продолжение анализа по грамматике невозможно) и разбор продолжается. Для ил

Алгоритм Айронса по исправлению ошибок
Пусть xjy — куст исходной программы, где x — построенная часть, jy — недостроенная часть, jÎVT 1. Строим список L из литер недостающих час

Вычисления арифметических записей на основе ПОЛИЗ
Существует два способа записи арифметических выражений: 1) инфиксная (традиционная) и 2) постфиксная (ПОЛИЗ) Таблица 5.1 Инфиксная Постфиксная

ВОСХОДЯЩИЕ МЕТОДЫ АНАЛИЗА
Анализ методами слева направо является более приоритетным и занимает 60..80% для грамматик определённого класса. Менее популярными являются методы анализа снизу вверх или восходящие

Грамматики простого предшествования.Отношения предшествования
Отношения предшествования такие же отношения, как и логические конъюнкция, дизъюнкция, и несут смысл определённых операций. Примечание. Здесь и в дальнейшем будем рассматри

УПРАЖНЕНИЯ
Перевести в ПОЛИЗ инфиксные выражения 1 - 3 1. ( x2