Контекстный поиск.

Контекстный поиск - поиск по текстам документов (комментариев). Производится при выборе условия поиска «Поиск по тексту». Это самый мощный поиск в системе.

При вводе поисковой фразы система дает предупреждение о «шумовых словах», используемых в запросе. Такие слова выделяются цветом, появляется предупреждающее сообщение, и при поиске они будут отброшены. Кроме этого при вводе запроса автоматически подключается словарь (тезаурус) словоформ, что, с одной стороны, позволяет упростить процесс составления (ввода) поисковой фразы (пользователь выбирает предлагаемые системой слова, заведомо содержащиеся в базе данных), а с другой стороны, система сразу выделит во введенной поисковой фразе слова, которых нет в текстах базы данных.

Алгоритм контекстного поиска следующий:

– в слове (словах поисковой цепочки) выделяется основа (в каждом слове отбрасываются окончания);

– порядок слов в поисковой фразе не важен, слова фразы объединяются по принципу логического “И”;

– система воспринимает группу слов, заключенных в кавычки, как задание найти тексты, в которых искомые слова находятся рядом (составляют фразу);

– в поисковой фразе не пропускаются “шумовые слова”. В поисковой фразе контекстного поиска возможно использование чисел и буквенно-цифровых последовательностей (номера документов, химические формулы и т.п.). Допустимыми символами для таких последовательностей являются буквы русского и латинского языка, дефис, наклонная и обратная черта (“\” и “/”).

Контрольные вопросы

1. Дайте определение основных понятий СУБД:

a). Поле

b). Запись

c). Ключи

d). База данных

2. Какие существуют типы данных в СУБД Access?

3. Как настроить параметры печати в СУБД Access?

4. Перечислите виды отчетов СУБД Access?

5. Что такое форма? Как создать простую форму в СУБД Access?

5.4. Информационно – поисковые системы

Эффективная технология работы с растущими потоками несистематизированной текстовой информации

Кто из аналитиков не сталкивался в своей работе с задачей поиска нужной информации в больших информационных массивах и, в частности, с работой поисковых систем в Интернете. Уровень сервисных услуг, предоставляемых поисковой машиной, обычно оценивается по двум критериям: это размер базы данных поисковой машины (чем больше база данных, тем большее количество сайтов известно данному поисковику, а следовательно, тем точнее поиск) и информативность выдаваемых результатов. Конечно, зарубежные поисковые машины, такие, как Alta-Vista, Lycos и HotBot, превосходят любой из существующих российских поисковых сервисов по размеру базы данных, поскольку пытаются охватить весь мировой Интернет. Как гласит опубликованное в научном журнала Nature исследование, максимальный охват адресов в Интернете - 16% - сегодня обеспечивает поисковая система Nothern Light, за ней - 15,5% - следует Alta Vista, а на третьем месте - 11,3% - Hotbot.

Поисковые системы соревнуются в увеличении размера базы даных.

Поисковая система под амбициозным названием Alltheweb (что соответствует русскому "всясеть") официально стартовала 3.08.99 в Интернете. Об этом сообщила информационная служба корпорации BBC.

Норвежская компания Fast Search and Transfer ASA - разработчик новой системы сообщила, что система скоро охватит ищущим виртуальным оком все 100% web-адресов Всемирной паутины. Пока ей удается "видеть" только четверть, что тоже очень неплохо по сравнению с достижениями существующих поисковых систем.

Охват системой Alltheweb всего пространства Всемирной паутины должен случиться к концу 2000 года - а к тому времени при нынешних темпах развития сети количество сайтов достигнет 1 миллиарда. Fast утверждает, что новая система сегодня просматривает 200 млн сайтов за 1 секунду, в то время как конкурирующие системы способны провести поиск по тому же количеству страниц за несколько часов, а то и дней. "Небольшие поисковые системы просто пропускают какое-то количество веб-сайтов, а иногда просто множество сайтов не включены в их поисковые каталоги", - говорит Эспен Бродин, президент и исполнительный директор Fast.

Решив хотя бы поверхностно поэкспериментировать с новой поисковой системой, корреспондент газеты "Время" обнаружила, что на слово gazprom система отреагировала 16651 документом, подчеркнув, что затратила на поиск 0,106 секунды. Alta Vista провела аналогичный поиск за не называемое ею время (но тоже довольно быстро) и нашла 5653 документа. А на запрос Gorbachev Alltheweb выдала 43142 документа (потратив 0,1 секунды), в то время как Alta Vista отыскала 1563 документа.

Я продолжил эксперимент с русскоязычными поисковыми машинами. На слово “газпром” Rambler нашел 30212 документов, Яndex – 133787 документов на 1813 сайтах, а Апорт обнаружил 1500 материалов на 339 сайтах. Вероятно, точное количество найденных документов Апортом не указывается, если их число перевалило за 1500. Ответ на запрос “Горбачев” был следующим: Rambler - 11079 документов, Яndex – 27762 (1035 сайтов), Апорт – опять 1500 (650 сайтов).

Российский Интернет сегодня составляет менее 1% от мирового и охватывает около 2 млн. пользователей. Но и эта немаленькая цифра неуклонно растет. Сеть увеличивается как по широте охвата, так и по объему хранящейся в ней информации, которая распределяется по миллионам компьютеров.

Интернет-пространство расширяется (по некоторым оценкам объем информационных массивов мирового Интернета увеличивается примерно на миллион страниц в день) Поисковые системы стараются адекватно реагировать, наращивая и скорость выполнения поиска, и величину охвата Интернет пространства. Логичным результатом явилось увеличение числа ссылок на Интернет ресурсы в результате поиска.

Всем понятно, что поиск может считаться хорошим, если удается найти нужную информацию на одной из первых страниц с результатами поиска. В этом смысле очень важна грамотная сортировка по релевантности.

Приведем перечень основных критериев, которые учитывает, к примеру, система Апорт-2000 при сортировке документов (сайтов):

1) количество искомых слов в тексте документа (в процентах) расстояние между поисковыми словами в тексте документа

2) место в тексте, где встречаются поисковые слова (заголовок, описание, мета-таг и т.п.)

3) внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет)

4) количество ссылок из Интернета на данный документ

5) использование искомого слова в тексте ссылок из Интернета на данный документ

Окончательный процент соответствия документа запросу строится как некая функция от всех этих показателей. Часть из них просты и понятны (хотя учитываются далеко не всеми поисковыми машинами), часть требует пояснения, поскольку это новые, практически уникальные решения.

Не секрет, что некоторые сайты создаются именно с учётом дальнейшей эффективной индексации поисковыми машинами. Удачная индексация - это целый комплекс действий. Её нужно учитывать еще при создании сайта. Многое зависит от правильности написания кода с учётом специальных тегов. Но и это не всё. Профессионалы, например, предлагают целый комплекс мер (законных!), который позволяет оказаться в первых страницах результатов поиска (!) практически независимо от истинного информационного содержания Web-страниц. Искусственное завышение ценности информационного ресурса, несомненно, сказывается на результатах поиска, и затрудняет работу аналитика.

Исследования показали, что пользователь может просмотреть не более 40 найденных в результате поиска материалов, а поисковые машины выдают порой сотни, тысячи, десятки и сотни тысяч ссылок, просмотреть которые в разумные сроки не представляется возможным.