Дублированный контент — страница сайта, доступная одновременно по нескольким URL.
В данном случае поисковые системы воспринимают один и тот же веб-документ как разные, при этом содержащие идентичный контент. Такая ситуация приводит к явлению, получившему название “каннибализация”. Дубли конкурируют между собой и в конечном итоге один из них исключается из индекса. Появление дублированного контента обусловлено особенностью работы современных CMS. Его источниками становятся адреса со слэшем и без, RSS-ленты, версии для печати и прочие. Кроме того, дубли часто появляются при неправильной настройке ЧПУ.
Главной проблемой является невозможность предсказать, какую именно из страниц-двойников поисковик сочтет оригиналом. В итоге, из выдачи может выпасть страница, для которой уже закуплены вечные ссылки, что приведет к пустой растрате бюджета на продвижение, а также негативно скажется на ранжировании сайта в целом.
Методы борьбы с дублированным контентом
Чтобы предотвратить появление дублей, необходимо:
- Указать в robots.txt основной сайт, используя директиву host, а также прописать главное зеркало в соответствующем разделе Яндекс.Вебмастер;
- Закрыть дубли от индексации с помощью директивы Disallow файла robots.txt;
- Правильно настроить модуль SEF используемой системы управления (CMS), проверив, чтобы генератор человекопонятных ссылок создавал по одному URL на каждый веб-документ;
- Установить 301-й редирект, создав перенаправление с дублированных страниц на оригинальные (например, с http://www.example.com на http://example.com, с http://example.com/index.php на http://example.com и т.д.). Для этих целей можно воспользоваться возможностями файла дополнительной конфигурации сервера htaccess;
- Явно указать каноническую страницу в теге rel=“canonical”.
Выявить же дубли можно бесплатной утилитой Xenu Link Sleuth. Просканировав сайт, достаточно отсортировать полученные результаты по заголовкам, после чего остается найти визуально похожие адреса.