Проблемы дублированного контента

Дублированный контент может получиться по многим причинам, в том числе благодаря лицензированию контента вашего сайта, дефектам архитектуры сайта (из-за недружественной к оптимизации системы CMS) или благодаря плагиату. В последние пять лет спамеры, испытывающие чрезвычайную необходимость в контенте, начали "выцарапывать" контент из легальных источников, переставлять слова посредством множества сложных процессов, размещать полученный текст на своих страницах, чтобы привлечь операции поиска из длинного хвоста и продемонстрировать контекстуальную рекламу, а также и для прочих бесчестных целей.

Таким образом, сегодня мы живем в мире "проблем дублированного контента" и "штрафов за дублирование контента". Приведем некоторые определения, которые будут полезны для данного обсуждения:

• Уникальный контент.

Написан человеком, полностью отличается от любой другой комбинации букв, символов и слов в Интернете, не подвергался воздействию компьютерных алгоритмов обработки текста (таких, как инструменты спамеров, использующие цепи Маркова).

• Фрагменты.

Это небольшие куски контента (такие, как цитаты), которые часто копируются и используются многократно. Они почти никогда не являются проблемой для поисковых движков, особенно когда включаются в более крупный документ с большим количеством уникального контента.

• Шинглы.

Поисковые движки ищут относительно небольшие сегменты фраз (пять-шесть слов) на других страницах в Интернете. Когда два документа имеют слишком много общих шинглов, то поисковые движки могут интерпретировать эти документы как дублированный контент.

• Проблемы дублированного контента.

Это понятие обычно используется для обозначения дублированного контента, который не влечет за собой штрафа для web-сайта, а просто является копией существующей страницы, что заставляет поисковые движки выбирать версию для показа в индексе (это фильтрация дублированного контента).

• Фильтрация дублированного контента.

Это когда поисковый движок удаляет существенно похожий контент из результатов поиска, чтобы обеспечить улучшение впечатления пользователя.

• Штраф за дублированный контент.

Штрафы применяются редко и только в очевидных ситуациях. Поисковые движки могут уменьшить рейтинг или запретить страницу сайта (и другие страницы тоже), могут даже запретить весь web-сайт.