Обработка знаний современный подход

Обработка знаний современный подход. В основе методики, предлагаемой мной, для использования современным студентом с целью анализа документов, лежит представление смысла текста в форме семантической сети. Семантическая сеть это множество понятий слов и словосочетаний, связанных между собой. В семантическую сеть включаются наиболее часто встречающиеся слова текста, которые несут основную смысловую нагрузку.

Для каждого понятия формируется набор ассоциативных смысловых связей, т.е. список других понятий, в сочетании с которыми оно встречалось в предложениях текста.

При этом считается, что чем чаще встречаются вместе два понятия в предложениях текста, тем выше вероятность того, что они связаны по смыслу.

Оригинальные лингвистические алгоритмы позволяют отождествлять различные части речи и близкие по смыслу словосочетания. Например, такие выражения, как анализ семантики философского текста и анализ структуры текста, рассматриваются как одна и та же смысловая единица одно понятие. Кроме того, из числа понятий исключаются общеупотребимые слова, которые не несут самостоятельной смысловой нагрузки или имеют широкое значение. Так, слова концепция и развитие сами по себе не являются понятиями, но могут образовать понятие, выраженное сочетанием концепция герменевтической школы. Таким образом, предлагаемый алгоритм позволяют включать в число тем анализа любые слова и их связные сочетания, например философия теоретическое отражение мира, и даже имена собственные, если им посвящено содержание документа.

В рамках рассматриваемой мной лингвистической модели смысла текста каждое понятие предлагается рассматривать в качестве имени соответствующей темы. Статистические данные о связях понятий в тексте, их распределении, позволяет оценить их вклад в общее содержание текста и, таким образом, ранжировать темы по информативности.

В итоге каждой теме семантической сети присваивается т.н. тематический вес. Максимальное значение тематического веса равное 000 соответствует ключевой важнейшей теме текста. Близкое к нулю значение веса темы показывает, что она лишь вскользь упомянута в тексте, и в нем мало сведений, относящихся к данной теме. Связи между парами тем, в свою очередь, также имеют характеристики веса связей от 0 до 000 . Большое значение веса связи от одной темы к другой, близкое к 000, указывает на то, что подавляющая часть информации в тексте, касающаяся первой, касается в тоже время и второй темы первая тема почти всегда излагается в контексте второй.

Малое значение веса отражает тот факт, что первая тема слабо связана со второй излагается независимо от нее. Связь между парой тем сети всегда двусторонняя, однако, связь от первой темы ко второй не всегда имеет тот же самый вес, что и обратная от второй к первой.

Такое различие в весах может указывать на то, что одна тема является подтемой другой. Семантическая сеть представляет собой тематический индекс анализируемых текстов, который используется для поиска документов по теме, а также для расширения запроса ассоциативно связанными темами. По каждой из тем сети формируется набор связных фрагментов текста - цитат, относящихся к соответствующей теме, которые представляют тематическое резюме реферат текста.

Кроме того, выполняется ранжирование этих фрагментов по весам от 0 до 000 , которые отражают их информативность для соответствующей темы. Общее резюме текста формируется из наиболее информативных фрагментов по ключевым темам документа. При анализе философского текста можно воспользоваться семантической сетью, построенной на базе других текстов эталонных. Например, если по текстам определенной предметной области построена семантическая сеть, ее можно использовать для фильтрации информации из других текстов.

В этом случае в текстах выявляются только те темы, которые содержатся в эталонной сети, и резюме строятся только по этим темам. Сравнение семантических сетей различных текстов позволяет установить степень их смысловой близости, что может использоваться для автоматической классификации документов по заданным рубрикам, поиска документов по подобию заданному тексту, а также кластеризации информационного массива на классы документов близкого содержания. 0.