рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Структура работы поисковых систем

Структура работы поисковых систем - раздел Транспорт, Раздел 1. Автоматизированная обработка информации: основные понятия и технология Работа Поискового Указателя Происходит В Три Этапа, Из Кото­рых Два Первых Яв...

Работа поискового указателя происходит в три этапа, из кото­рых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает инфор­мацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопи­ровать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеют те ресурсы, найденные там, снова разыскать имеющиеся в них гиперссылки. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических про­грамм, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-простран­ство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посе­щенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.

После копирования разысканных Web-ресурсов на сервер поис­ковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выда­вать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку «Найти» (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и фор­мирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поис­ковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.

Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, кли­енты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиен­тов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, веду­щих к одному и тому же ресурсу, но находящемуся на разных серверах.

Клиент вправе ожидать, что самыми первыми будут стоять наи­более полезные ссылки. Вот здесь и возникает проблема. Чело­век легко отличает полезный ресурс от бесполезного, но как объяснить это программе? Поэтому лучшие поисковые сис­темы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресур­сов. И делать это они должны быстро — клиент не любит ждать.

Все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каж­дая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. Операция сортировки полу­ченных результатов называется ранжированием. Каждой най­денной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения.

Высокие рейтинги получают Web-страницы, у которых клю­чевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благопри­ятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста — они считаются самыми важными при индек­сации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каж­дая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстра­ции. Для поисковой системы это верный признак того, что дан­ная страница точно соответствует запросу. Еще одним призна­ком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высо­ким показателем цитирования. Самые совершенные поиско­вые системы следят за уровнем цитирования зарегистрирован­ных ими Web-страниц и учитывают его при ранжировании.

 

– Конец работы –

Эта тема принадлежит разделу:

Раздел 1. Автоматизированная обработка информации: основные понятия и технология

Раздел Общий состав и структура персональных ЭВМ и вычислительных систем их программное обеспечение... Тема Архитектура персонального компьютера структура вычислительных... Магистрально модульный принцип построения компьютера Модульный...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Структура работы поисковых систем

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Тема 1.1. Информация, информационные процессы и информационное общество.
Понятие информации Весь окружающий нас мир состоит из трех сущностей — вещества, энергии и информации. Вещество — это все, что можно отнести к матер

Свойства информации
Основные свойства информации: 1. Понятность. Этим свойством обладает только та информация, которая выражена в форме, понятной тем, кому она предназначена, в

Единицы измерения количества информации
Для определения количества информации введены специальные единицы измерения. За единицу принимается такое количество информации, которое содержит сообщение, уменьшающее неопределенность знаний в дв

Тема 1.2. Технологии получения, хранения, обработки и передачи информации.
Информационными называются процессы, связанные с получением, хранением, обработкой и передачей информации. Получение и преобразование информации является условием жизнедеятельности любого

Модульный принцип.
Под архитектурой компьютера понимается его логическая организация, структура, ресурсы, т. е. средства вычислительной системы, которые могут быть предоставлены для обработки данных на определенный и

Процессор.
Несмотря на огромное разнообразие вычислительной техники и ее стремительное совершенствование, фундаментальные принципы устройства машин во многом остаются неизменными. В частности, начиная с самых

Основные характеристики современных компьютеров.
Процессор — центральное устройство компьютера. Он выполняет команды, находящиеся в оперативной памяти и управляет согласо­ванной работой всех устройств, входящих в состав компьютера. Поэтому пользо

Программное обеспечение компьютера.
Совокупность всех программ для компьютера называется программным обеспечением (ПО) компьютера. Программное обеспечение современных компьютеров включает миллионы программ — от игровых до научных. Вс

Прикладное ПО.
Прикладные программы непосредственно обеспечивают выполнение необходимых пользователю работ, в том числе облегчают процесс создания новых программ для компьютера. Прикладное программное обеспечение

Тема 2.2. Операционные системы и оболочки.
Операционная система – это комплекс программ, обеспечивающих управление работой компьютера и его взаимодействие с пользователем. С точки зрения человека операционная систе

Операционная система Windows
На смену операционной системе MS DOS с ее графическими оболочками Windows 3.1 и Windows 3.11 пришли полноценные операционные системы семейства Windows (сначала Windows 95, затем Windows 98, Windows

Функции текстовых процессоро
Инструментальные программы для подготовки текстов программ, документов, описаний называются текстовыми редакторами (text-editor), мощные текстовые редакторы с расширенным спектром функций на

Сравнительные характеристики текстовых процессоров
Текстовые процессоры разделяются на три группы: 1. редакторы общего назначения (сюда относятся, например, редакторы «Лексикон», MS Word, WordPerfect и др.); 2. редакторы

Тема 5.2.Электронные таблицы.
Электронная таблица — это программа обработки числовых данных, хранящая и обрабатывающая данные в прямоугольных таблицах. Электронная таблица состоит из столбцов и строк. Заголовки

Сортировка и поиск данных.
Электронные таблицы позволяют осуществлять сортировку данных. Данные в электронных таблицах сортируются по возрастанию или убыванию. При сортировке данные выстраиваются в определенном порядке. Можн

Тема 5.3.Системы управления базами данных.
Любой из нас, начиная с раннего детства, многократно сталкивался с "базами данных". Это - всевозможные справочники, энциклопедии. Записная книжка - это тоже "база данных", котор

Табличные базы данных
Табличная база данных содержит перечень объектов одного типа, т. е. объектов с одинаковым набором свойств. Такую базу данных удобно представлять в виде двумерной таблицы. Рассмотрим, напри

Иерархические базы данных
Иерархические базы данных графически могут быть представлены как дерево, состоящее из объектов различных уровней. Верхний уровень занимает один объект, второй — объекты второго уровня и т. д.

Сетевые базы данных
Сетевая база данных образуется обобщением иерархической за счет допущения объектов, имеющих более одного предка, т. е. каждый элемент вышестоящего уровня может быть связан одновременно с любыми эле

Типы и характеристики компьютерной графики
Современные компьютеры все шире применяются для построения изображений (рисунков), используемых в научных исследованиях; для наглядного представления результатов; в конструкторских разработках, тре

Программное обеспечение компьютерной графики
Программные средства работы с компьютерной графикой называют графическими редакторами (graphics editor). Существуют два типа графических редакторов: 1. редакторы для создания новых

Понятие информационных поисковых систем
Автоматизированная поисковая система – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций. Оп

Особенности поисковых систем
В работе поисковый процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после п

Виды поисковых систем в России
Из поисковых указателей в России сегодня действуют три «кита». Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Мэйл» (www.mail.ru). История развития и становления поисковой сис

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги