Файл robots.txt

Этот файл находится в корневом уровне вашего домена (например, http://www.yourdomain.com/robots.txt) и является чрезвычайно универсальным инструментом для управления тем, к чему разрешается доступ паукам поисковых движков на вашем сайте. Вы можете использовать файл robots.txt для того, чтобы:

• предотвратить доступ пауков к непубличным разделам вашего сайта;

• заблокировать доступ поисковым движкам к скриптам индексирования, утилитам и прочему коду;

• избежать индексирования дублированного контента web-сайта (такого, как версии для печати HTML-страниц или различные сортировки каталогов товаров);

• автоматически обнаружить XML Sitemap.

Файл robots.txt должен находиться в корневом каталоге, название файла должно быть полностью набрано в нижнем регистре (robots.txt, а не Robots.txt или какой-либо другой вариант с использованием букв верхнего регистра). Любое другое название или местоположение поисковыми движками не признается. Файл должен быть в текстовом формате (а не в формате HTML).

Когда вы говорите роботу поисковых движков, что обращаться к данной странице не нужно, он предотвращает доступ паука к странице. На рис. 6.31 показано, что происходит, когда робот поискового движка видит указание в файле robots.txt не просматривать web-страницу.

Рис. 6.31. Влияние файла robots.txt

По существу страница просматриваться не будет, так что ссылки этой страницы не могут передавать свой "сок" другим страницам (поскольку поисковый движок ссылок не видит). Однако страница может находиться в индексе поискового движка. Такое может произойти, если на данную страницу делают ссылки другие страницы Интернета. Конечно, поисковый движок не получит много информации с такой страницы (поскольку он не может ее прочитать) и будет полагаться в основном на якорный текст и прочие сигналы ссылающихся на нее страниц (чтобы определить, о чем может быть данная страница). В результате соответствующие результаты поиска в Google выглядят очень разреженными (рис. 6.32).

Рис. 6.32. SERP для страниц, которые занесены в файл robots.txt

На рисунке показаны результаты для запроса site: news.yahoo.com/topics/ inurl: page в поисковике Google. Это не обычный запрос, который мог бы ввести пользователь, но вы можете видеть, как выглядят результаты. Выдан только список URL, а описаний нет. Это происходит потому, что паукам не разрешается читать страницу, чтобы получить эти данные. При сегодняшних алгоритмах такие страницы не имеют высокого рейтинга, т. к. их релевантность чрезвычайно низка (для любых нормальных запросов).

Google, Yahoo! Bing, Ask и почти все легальные пауки Интернета выполняют сделанные вами в файле robots.txt указания. Команды файла robots.txt в основном используются для предотвращения доступа пауков к страницам и подкаталогам сайта, хотя у них есть и другие опции. Обратите внимание, что для поддомена требуется свой собственный файл robots.txt (точно так же, как и для файлов, находящихся на сервере https:).