рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Ведення каталогу

Работа сделанна в 2002 году

Ведення каталогу - Реферат, раздел Лингвистика, - 2002 год - Проблеми використання роботів (Укр.) Ведення Каталогу. Бази Даних Ресурсв, Що Знайден Роботом, Безумовно, Популярн...

Ведення каталогу. Бази даних ресурсв, що знайден роботом, безумовно, популярн. Однак, деклька проблем, що обмежують використання роботв для пошуку ресурсв. Забагато матералу, що забагато динамчним. Вимром ефективност заданого пдходу отримання нформац вдсоток релевантних документв серед усх знайдених. Пошук нформац вдбуваться не у самому нтернет а у локальнй баз даних конкретного робота, що може не мстити нформац, яка насправд сну у нтернет, тому що розмр нтернет велетенський змни дуже част. Визначення що ндексувати, а що н. Робот не може автоматично визначити, чи потрбно дану веб-сторнку включати до свого списку чи н. Веб-сервери можуть мстити документи, як використовуються тльки локально, наприклад, список внутршньо бблотеки, або т, як снують тимчасово.

До деяко мри, ршення про те, що необхдно, а що н, залежить вд уподобань користувачв, але вони можуть бути невдомими для робота.

Практично роботи збергають майже все, що вони знаходять. Помтьте, що навть, якщо робот зможе визначити, що дану сторнку не треба включати у базу даних, вн уже отримав цей непотрбний файл з нтернет. Навпаки, робот, що гнору великий вдсоток документв не дуже корисним. Robot Community спробувало змнити цю ситуацю, створивши спецальний стандарт A standard for robot exclusion. Цей стандарт опису використання простого структурованого текстового файлу, щоб задати, як частини даного серверу не потрбно оглядати роботам.

Цю можливсть можна також використовувати, аби повдомити робота про чорн дрки, коли заглиблюючись у все глибш сторнки робот не може з них повернутися. Кожному роботу можна давати особлив нструкц, бо кожен з них спецалзуться в певнй окремй галуз. Цей стандарт не загальноприйнятий, але вважаться, що кожен робот повинен його дотримуватися. Визначити порядок обходу сайтв це велика проблема. Бльшсть сайтв органзован рархчно, тому обхд в ширину, з вершини до задано глибини, да бльший набр документв, нж обхд в глибину.

Проте обхд в глибину швидше вднайде сторнки користувачв, в яких посилання на нш сторнки, тому швидше знайде нов сайти для обходу. robots.txt for httpwww.site.com User-agent attention all robots Disallow cyberworldmap infinite URL space Disallow tmp temporary files Приклад файлу robots.txt Статистичний аналз Дуже складно прондексувати звичайний веб-документ. Перш роботи просто збергали назви документв та тексти посилань, але сучасн роботи використовують бльш складн механзми, як правило аналзують весь змст документу.

Ц методи можна автоматично застосовувати для всх документв, але вони не можуть бути настльки ефективн, як ручне ндексування автором. HTML да можливсть додати метанформацю до документв, яка спрощу роботу пошук по документу. Етика Зрозумло, що роботи дуже корисн, але вони накладають висок вимоги на трафк спричинюють багато проблем. Тому автори роботв мусять обирати золоту середину мж користю та шкодою, коли створюють та випускають робота. тут етична проблема Чи шкоду вд роботв можна виправдати х кориснстю.

Люди мають рзн думки щодо цього. Деяк з проблем стали очевидними лише тод, коли роботи збльшили вдвч завантаження серверв. Мартин Костер виробив набр правил для авторв роботв, дотримуючись яких, можна мнмзувати шкоду вд роботв подумайте, чи насправд вам потрбен новий робот зробть так, щоб адмнстратори серверв могли легко дентифкувати робота та при необхдност зв язатися з автором ретельно протестуйте робота локально керуйте використанням ресурсв, не допускайте клькох послдовних скачувань з одного серверу та не допускайте непотрбних скачувань дотримуйтесь стандарту for Robot Exclusion регулярно переглядайте log файли робота длться результатами сво роботи з ншими.

Девд Ейхмант роздля роботв, як створюють загальнодоступн нформацйн бази, та роботв для користувачв, результат роботи яких, використовуться лише одню людиною. Той факт, що бльшсть авторв роботв використовують поради Мартина Костера показу, що вони свдомо ставляться до можливих проблем, та намагаються мнмзувати будь-який негативний вплив.

– Конец работы –

Эта тема принадлежит разделу:

Проблеми використання роботів (Укр.)

Коли розмр WWW збльшився вд деклькох десяткв сайтв, стало зрозумло, що людина не в змоз самостйно переглянути таку кльксть сайтв, тим паче знайти… Роботв також називають павуками spiders або черв яками worms, але ц назви… Насправд, робот це одна програмна система, що отриму нформацю з нтернет сайтв використовуючи стандартн протоколи WWW.…

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Ведення каталогу

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Дзеркала
Дзеркала. Дзеркальнсть популярна технка для пдтримки FTP архвв. Дзеркало мстить копю усього дерева каталогв FTP сайту регулярно оновлю т документи, що додаються до оригнального сайту. Це дозволя зм

Пошук ресурсв
Пошук ресурсв. Мабуть, найбльш захоплюючим використанням роботв пошук нових ресурсв. Там, де люди не можуть впоратись з величезною клькстю нформац, комп ютер зробить цю задачу швидко й яксно. сну б

Ресурси мереж та завантаження серверв
Ресурси мереж та завантаження серверв. Роботи потребують чималого трафку. Перш роботи працювали протягом тривалого часу, нколи мсяцями. Щоб прискорити виконання завдання, деяк роботи працюють у пар

Поган реалзац
Поган реалзац. Навантаження на мережу та сервери нод збльшуться за рахунок погано написаних нових роботв. Навть якщо вхдн та вихдн дан правильн, багато менш очевидних проблем. Наприклад, нод

Альтернативи для пошуку ресурсв
Альтернативи для пошуку ресурсв. сну альтернативний пдхд до пошуку ресурсв, коли сумарна ндексна нформаця про сервер вже збрана на ньому. Це нформаця лише про локальн ресурси. Вона може бути створе

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги