Ведення каталогу

Ведення каталогу. Бази даних ресурсв, що знайден роботом, безумовно, популярн. Однак, деклька проблем, що обмежують використання роботв для пошуку ресурсв. Забагато матералу, що забагато динамчним. Вимром ефективност заданого пдходу отримання нформац вдсоток релевантних документв серед усх знайдених. Пошук нформац вдбуваться не у самому нтернет а у локальнй баз даних конкретного робота, що може не мстити нформац, яка насправд сну у нтернет, тому що розмр нтернет велетенський змни дуже част. Визначення що ндексувати, а що н. Робот не може автоматично визначити, чи потрбно дану веб-сторнку включати до свого списку чи н. Веб-сервери можуть мстити документи, як використовуються тльки локально, наприклад, список внутршньо бблотеки, або т, як снують тимчасово.

До деяко мри, ршення про те, що необхдно, а що н, залежить вд уподобань користувачв, але вони можуть бути невдомими для робота.

Практично роботи збергають майже все, що вони знаходять. Помтьте, що навть, якщо робот зможе визначити, що дану сторнку не треба включати у базу даних, вн уже отримав цей непотрбний файл з нтернет. Навпаки, робот, що гнору великий вдсоток документв не дуже корисним. Robot Community спробувало змнити цю ситуацю, створивши спецальний стандарт A standard for robot exclusion. Цей стандарт опису використання простого структурованого текстового файлу, щоб задати, як частини даного серверу не потрбно оглядати роботам.

Цю можливсть можна також використовувати, аби повдомити робота про чорн дрки, коли заглиблюючись у все глибш сторнки робот не може з них повернутися. Кожному роботу можна давати особлив нструкц, бо кожен з них спецалзуться в певнй окремй галуз. Цей стандарт не загальноприйнятий, але вважаться, що кожен робот повинен його дотримуватися. Визначити порядок обходу сайтв це велика проблема. Бльшсть сайтв органзован рархчно, тому обхд в ширину, з вершини до задано глибини, да бльший набр документв, нж обхд в глибину.

Проте обхд в глибину швидше вднайде сторнки користувачв, в яких посилання на нш сторнки, тому швидше знайде нов сайти для обходу. robots.txt for httpwww.site.com User-agent attention all robots Disallow cyberworldmap infinite URL space Disallow tmp temporary files Приклад файлу robots.txt Статистичний аналз Дуже складно прондексувати звичайний веб-документ. Перш роботи просто збергали назви документв та тексти посилань, але сучасн роботи використовують бльш складн механзми, як правило аналзують весь змст документу.

Ц методи можна автоматично застосовувати для всх документв, але вони не можуть бути настльки ефективн, як ручне ндексування автором. HTML да можливсть додати метанформацю до документв, яка спрощу роботу пошук по документу. Етика Зрозумло, що роботи дуже корисн, але вони накладають висок вимоги на трафк спричинюють багато проблем. Тому автори роботв мусять обирати золоту середину мж користю та шкодою, коли створюють та випускають робота. тут етична проблема Чи шкоду вд роботв можна виправдати х кориснстю.

Люди мають рзн думки щодо цього. Деяк з проблем стали очевидними лише тод, коли роботи збльшили вдвч завантаження серверв. Мартин Костер виробив набр правил для авторв роботв, дотримуючись яких, можна мнмзувати шкоду вд роботв подумайте, чи насправд вам потрбен новий робот зробть так, щоб адмнстратори серверв могли легко дентифкувати робота та при необхдност зв язатися з автором ретельно протестуйте робота локально керуйте використанням ресурсв, не допускайте клькох послдовних скачувань з одного серверу та не допускайте непотрбних скачувань дотримуйтесь стандарту for Robot Exclusion регулярно переглядайте log файли робота длться результатами сво роботи з ншими.

Девд Ейхмант роздля роботв, як створюють загальнодоступн нформацйн бази, та роботв для користувачв, результат роботи яких, використовуться лише одню людиною. Той факт, що бльшсть авторв роботв використовують поради Мартина Костера показу, що вони свдомо ставляться до можливих проблем, та намагаються мнмзувати будь-який негативний вплив.