Дубли страниц на сайте: виды, поиск, оптимизация и кейсы!

Что такое дубли на сайте?

Дубли страниц — это страницы, где похожая или полностью повторяющаяся информация доступна по разным URL-адресам.

Если контент на двух страницах отличается незначительно, например только картинками или порядком сортировки, то это тоже считается дублями.

Виды дублей

Важно различать 2 вида дублей, так как у них принципиально разный смысл:

дублированный контент внутри сайта;
дублированный контент относительно других сайтов.

Поисковые системы по-разному оценивают эти дубли, что в конечном счете по-разному сказывается и на вашем сайте.

❗В этой статье рассматриваем дубли только внутри одного домена.

Дубликаты страниц внутри сайта бывают:

полные;
частичные;
смысловые.

Полные

Полный дубль страницы — это когда один и тот же контент доступен по разным адресам.

Наиболее популярные ситуации:
Не настроена склейка относительно: www, протокола (http или https), одного слеша или нескольких.

Главная страница открывается по разным адресам:

https://site.com/index
https://site.com/index.php
https://site.com/index.html
и т.д.

Генерация дублей из-за гет параметров, которые не меняют контент (например, UTM-метки).

/catalog/?sessionid=777
/catalog?utm_source=instagram&utm_medium=cpc

Образование дублей из-за особенностей структуры, когда один и тот же товар может быть доступен по разным URL-адресам.

Например, товар «букет из 5 тюльпанов» может находиться в категориях: «Цветы на день рождения», «Тюльпаны», «Желтые цветы».

/flowers/for-birthday/buket-iz-5-tyulpanov/
/flowers/tulips/buket-iz-5-tyulpanov/
/flowers/yellow/buket-iz-5-tyulpanov/

Генерация дублей через результаты поиска по сайту.

/catalog/kompozitnaya-krovlya-metrotile-gallo/ (целевая страница)
/catalog/kompozitnaya-krovlya-metrotile-gallo/?sphrase_id=3528 (дубль, возникший в результате поиска)

Не корректно настроена работа 404 ошибки.

В этом случае при добавление в URL-адрес лишних символов или разделов, замена строчных букв на прописные, замена нижнего слеша на тире или наоборот, изменит адрес, но не контент. Таким образом образуются дубли.

На сайте есть версии документа для печати.

https://site.com/news/kurs-dollara-pobil-record-2022-goda/ (целевая страница)
https://site.com/news/kurs-dollara-pobil-record-2022-goda/print/ (дубль — версия для печати)

Частичные

Частичный дубль — это страница, контент которой по большей части повторяет содержимое другой.

Страницы сортировок, фильтров.

На страницах сортировок меняется только порядок товаров/услуг, поэтому их можно считать частичными дублями.

/table/ (целевая страница)
/table/?price=low (страница-дубль с сортировкой по убыванию цены)
/table/?price=high (страница-дубль с сортировкой по возрастанию цены)

Страницы фильтров также считаются частичными дублями, если после их применения контент практически не меняется (например, добавляется только 1 товар).

Справка Гугла

Похожие товары.

Актуально для интернет-магазинов, где товары отличаются только определенными параметрами (цвет, размер, материал и т. п.). В итоге карточки имеют практически одинаковый контент.

Товар каждого цвета на одном урле

Товар каждого цвета на собственном урле

Стоит понимать, что в некоторых случаях отдельные страницы будут оправданы. Это можно понять на основе семантики и результатов выдачи. Например, под запрос «айфон 13 про синий» стоит делать отдельную посадочную, но контент должен быть оптимизированным именно под этот цвет: картинки, видео, цена, наличие, отзывы, ЧПУ, мета-теги и т. д.

Вот что говорит по этому поводу представитель Гугла:

Если вы не можете сделать что-то уникальное для конкретного варианта, я бы просто вставил его в обычную страницу продукта. И люди, которые ищут этот вариант, по-прежнему смогут найти эту страницу продукта… У вас все еще есть атрибуты, перечисленные там. Джон Мюллер, Google, 2016 г.

Практически тоже самое написано в блоге Яндекса:

Пагинация.

Ее можно отнести к частичным дублям, но только в том случае, если есть отдельная страница со всеми товарами/услугами/статьями. Подробнее мы писали тут.

Ответ поддержки Яндекса, когда пагинацию можно считать частичным дублем

Подстановка контента.

Иногда для регионального продвижения добавляют функционал выбора местоположения 😮. При выборе города частично меняется контент, например: номер телефона, город, заголовок. При этом в адрес добавляется параметр, например: «?city=Samara».

Смысловые

Смысловые дубли — это страницы, оптимизированные под запросы, которые поисковые системы относят к одному и тому же кластеру.

Чтобы их обнаружить, можно скопировать заголовки H1 всех страниц в любой Hard-кластеризатор (например, https://majento.ru/index.php?page=seo-analize/klasterization/index) и получить группировку похожих по смыслу. Если несколько фраз попало в один кластер, нужно выбрать целевую страницу, а с остальные склеить.

Такую ситуацию мы разобрали далее в кейсе «Объединение смысловых дублей».

Класстеризатор разбил похожие запросы (казалось бы) на 2 группы

Почему нужно избавляться от дублей?

Сначала приведем выдержки из справок поисковых систем, а потом наглядный пример, почему дубли — это проблема.

Из справки Яндекса. Если на сайте есть страницы-дубли:

Из результатов поиска может пропасть нужная вам страница, так как робот выбрал другую страницу из группы дублей.

В некоторых случаях страницы могут не объединяться в группу и участвовать в поиске как разные документы. Таким образом конкурировать между собой. Это может оказать влияние на сайт в поиске.

В зависимости от того, какая страница останется в поиске, адрес документа может измениться. Это может вызвать трудности при просмотре статистики в сервисах веб-аналитики.

Индексирующий робот дольше обходит страницы сайта, а значит данные о важных для вас страницах медленнее передаются в поисковую базу. Кроме этого, робот может создать дополнительную нагрузку на сайт.

Из справки Гугла. Почему стоит избавиться от дублированного контента на страницах:

Чтобы указать, какой URL следует показывать в результатах поиска.

Чтобы упростить получение статистики по отдельным товарам или темам. Если контент размещен на нескольких страницах с разными URL, это затрудняет получение обобщенной статистики по нему.

Чтобы оптимизировать сканирование сайта. У робота Googlebot должна быть возможность обрабатывать новый и обновленный контент, не тратя время на множество вариантов страниц, например предназначенных для разных типов устройств. В противном случае ваш сайт не будет сканироваться эффективно.

Пример

Когда один и тот же контент доступен по нескольким адресам, на него могут вести ссылки из разных мест. Это приводит к неэффективного распределению PageRank между страницами.

Для примера рассмотрим 2 страницы, которые являются точными копиями:

На первую страницу ведет 106 внешних ссылок, а на вторую — 144.

Обе страницы ранжируются, но по разным ключам:

В чем проблема? Вместо того, чтобы объединить PR в одном месте, каждая страница получает только свою часть. Как результат, 2 страницы конкурируют между собой. Это мешает улучшить позиции по соответствующим запросам. Что делать в данном случае будет рассказано в соответствующей главе.

Как проверить сайт на наличие дублей?

Рассмотрим основные способы по поиску дублей. Все они имеют право на жизнь и их можно комбинировать между собой.

Через операторы

Поиск дублей страниц посредством поисковых операторов — это самый медленный способ. Обычно используется для точечного определения дублей или если нужно провести аудит, но нет доступа к личным кабинетам вебмастера и сервисам аналитики.

Если вы хотите найти несмысловые дубли, то можно воспользоваться командой вида:

site:*хост* «предложение для проверки»

Предложение для проверки — это любой текст со страницы для которой ищутся дубли.

Смысловые дубли ищутся похожим образом:

site:*хост* «продвигаемая фраза»

В этом случае выведутся результаты по убыванию релевантности поисковому запросу. Вам самим нужно будет решить являются ли найденные страницы смысловыми дубликатами на самом деле или они просто содержат одну и ту же фразу. Как это сделать читайте в разделе «Объединение смысловых дублей».

Также есть специальные операторы, которые ищут вхождение фразы только в тайтлах:

в Гугле: allintitle:«фраза» site:*хост*
в Яндексе: title:«фраза» site:*хост*

Для поиска дублей (например, страниц сортировок) через урлы можно использовать такую конструкцию:

site:*хост* inurl:*параметр*

Поисковые операторы показывают только те дубли, которые уже были проиндексированы. Поэтому нельзя полностью полагаться на этот метод.

Личные кабинеты вебмастера

Если у вас есть доступ к личным кабинетам, то в первую очередь стоит провести анализ отчетов именно там. Однако стоит понимать, что данные там отображаются с задержкой и не в полном объеме (особенно для Гугла).

Яндекс.Вебмастер

Чтобы получить данные по дубликатам нужно:

На вкладке «Индексирование» открыть раздел «Страницы в поиске».
Перейти в отчет «Исключенные страницы».
Отфильтровать данные по статусу «дубль».

Отчет по дублям в Яндекс.Вебмастере

Также в Яндекс.Вебмастере можно найти дубли через раздел «Заголовки и описания». Там отображаются страницы с одинаковыми тайтлами и мета-описаниями.

Отчет по дублям заголовков и мета-описаний в Яндекс.Вебмастере

Google Search Console

Посмотреть страницы, которые Гугл считает дубликатами, можно в отчетах по исключенным страницам:

Вариант страницы с тегом canonical.
Страница является копией. Канонический вариант не выбран пользователем.
Страница является копией. Канонические версии страницы, выбранные Google и пользователем, не совпадают.
Страница является копией. Отправленный URL не выбран в качестве канонического.

Более подробно про эти отчеты мы рассказывали тут.

Также читайте наше руководство о работе с Google Search Console.

Раздел с отчетами по дублям в GSC

Очеты по дублям в GSC

Софт

Есть как минимум 4 программы, которые позволяют находить дубли контента на сайте. Рассмотрим 1 платное и 3 бесплатных решения.

Screaming Frog Seo Spider

Программа позволяет бесплатно просканировать до 500 ссылок. Если сайт большой, то придется покупать или использовать другой софт (про него далее). Определить дубли страниц можно как по мета-тегам, так и по текстовому содержимому.

В программе удобно реализовано сравнение похожего контента. Отображается похожесть конкретной страницы относительно других в процентах, есть предпросмотр и подсветка отличающихся текстов, можно выбрать зону для текстового анализа и т. д.

Пример пары дублей по тайтлам в Screaming Frog

Пример пары дублей по мета-описаниям в Screaming Frog

Построковое сравнение текста в Screaming Frog

SiteAnalyzer

Ближайший бесплатный аналог предыдущей программы — это SiteAnalyzer. В отличии от Screaming Frog здесь нельзя наглядно сравнивать повторы по тексту, а также выбирать область для сканирования текстового контента.

Сравнение контента в программе SiteAnalyzer

BatchUniqueChecker

Узкоспециализированная бесплатная программа для массовой проверки уникальности контента без учета мета-тегов. Позволяет наглядно сравнивать текстовый составляющую двух страниц.

Сравнение страниц в BatchUniqueChecker

Построковое сравнение текста в BatchUniqueChecker

Xenu Link Sleuth

Бесплатный софт, который поможет проверить сайт на дубли по тайтлам и мета-описаниям. Для этого нужно полностью просканировать сайт, а затем отсортировать результаты по столбцам Title и Description. Минус в том, что у страниц дублей могут быть разные мета-теги, и с помощью программы вы это не узнаете.

Пример пары дублей по тайтлам в Xenu

Что делать с дублями?

Удалить и настроить 301 редирект (хороший вариант).
Заблокировать в robots.txt (приемлемо).
Указать канонические страницы (хороший вариант).
Использовать Clean-param (хороший вариант для Яндекса).
Использовать директиву noindex (плохой вариант).
Ничего не делать (плохой вариант).

Склейка дублей через 301 редирект

Наиболее надежный вариант для передачи всех показателей со страниц-дубликатов. Лучше всего подходит для полных дублей. Единственный минус, что теряется доступ к страницам-копиям.

После установки 301 редиректа со страницы-дубля на основную происходит автоматическое перенаправление. Так, все ссылки ведущие на дубль в конечном счете перенаправят пользователя/бота на нужную страницу.

Какую страницу выбрать в качестве основной мы рассказали тут.
Больше информации о 301 редиректах читайте в нашей статье.

Блокировка дублей в robots.txt

Используется только в тех случаях, когды вы абсолютно уверены, что поисковые роботы не должны видеть дубли.

Закрыть доступ к сканированию дублей можно через директиву Disallow в файле robots.txt. При этом поисковый робот даже не сможет узнать, что вы заблокировали именно дубли. Иногда эта директива игнорируется (чаще Гуглом) и иногда Яндексом (когда смешиваются canonical, disallow и noindex).

Справка Гугла

Через роботс оптимально блокировать страницы с результатами поиска, страницы печати и т. п.

Пример:

Disallow: /*?sphrase_id=

Disallow: /*?act=print

Поисковых системы рекомендуют в качестве альтернативы следующие варианты:

Из справки Гугла:

Google не рекомендует блокировать поисковым роботам доступ к идентичному контенту с помощью файла robots.txt или иными способами. Не имея возможности сканировать страницы с идентичным контентом, поисковые системы не смогут автоматически определять, что по разным URL размещены одинаковые материалы, и будут обращаться с этими страницами как с уникальными. Лучше всего разрешить сканирование таких URL, но при этом пометить их как точные копии при помощи элемента link с атрибутом rel=«canonical», инструмента обработки параметров URL или переадресации 301.

Из справки Яндекса:

Такой запрет можно использовать, однако при использовании директивы Disallow передать какие-либо показатели запрещенных страниц не получится, поэтому мы рекомендуем использовать атрибут тега <link> rel=«canonical», либо редирект. Для страниц с GET-параметрами можно использовать директиву Clean-param.

Склейка дублей через каноникал

Самый «мягкий» вариант работы с дублями, так как атрибут rel=«canonical» выступает в качестве подсказки для поисковых роботов, а не указания. То есть что-то сломать, неверно настроив канониклы, сложно. При этом эффект от метода может быть слабее, чем от клин парам или 301-редиректа.

Как это работает читайте в нашей статье «Руководство по работе с канониклами».

Склейка дублей через Clean-param

❗Метод работает только для Яндекса!

Поисковый робот Яндекса, увидев директиву Clean-param, не будет многократно перезагружать дублирующуюся информацию. Краулинговый бюджет будет расходоваться оптимальнее, а нагрузка на сервер снизится.

Например, на сайте есть страницы:

www.site.com/сatalog/get_book.pl?ref=site_1&book_id=1
www.site.com/сatalog/get_book.pl?ref=site_2&book_id=1
www.site.com/сatalog/get_book.pl?ref=site_3&book_id=1

Если указать директиву в robots.txt:

Clean-param: ref /some_dir/get_book.pl

то робот Яндекса сведет все адреса страницы к одному и передаст некоторые накопленные показатели со страниц дублей:

www.example.com/some_dir/get_book.pl?book_id=1

Закрытие дублей от индексации через noindex

✅Метатег robots с директивой noindex

Не рекомендуем использовать этот метод, так как не происходит передачи метрик со страницы дубля и при этом тратится краулинговый бюджет на сканирование.

✅Тег noindex (актуально только для Яндекса)

Из блога Яндекса:

Не лучший, но действующий метод — использование тега noindex. «Шаблон» сайта содержит на страницах большое количество текста, который совпадает на всех страницах, что может частично повлиять на признание страниц дублями. В такой ситуации возможно использовать тег noindex, запретив к индексированию совпадающий текст: меню навигации, «подвал» сайта и т. п., то есть всё то, что робот видит в качестве идентичного текста.

Ничего не делать с дублями

По заявлениям представителей Яндекса и Гугла (Платонов и Джонов Мюллеров) поисковые роботы способны сами убрать дубли. Это отчасти так, но реализация далека от идеала: в поиск попадают страницы с одинаковым контентом или в качестве основной выбирается не та, которую вы бы хотели видеть. В общем говоря, лучше не пускать ситуацию на самотек.

Кейсы

Подобрали 4 кейса, где склейка страниц помогла увеличить позиции и трафик.

Объединение полных дублей через 301

Кейс от Криса Лонга — вице-президента маркетингового агентства Go Fish Digital.

На сайте-агрегаторе франшиз были найдены две страницы, содержащие полностью одинаковый контент.

Контент двух страниц совпадает на 100%

В качестве главной страницы была выбрана та, на которую вело больше внутренних ссылок и трафика. Со страницы дубликата был настроен 301 редирект.

Рост трафика после склейки через 301 редирект

В результате трафик на оставшуюся страницу увеличился более, чем на 200%.

Объединение полных дублей через rel=canonical

На сайте аквариумного интернет-магазина образовалось огромное количество дублей из-за структуры, когда один и тот же товар принадлежит разным категориям. К нам пришел сайт в тот момент, когда Яндекс проиндексировал страницы-дубли. Хотя канониклы уже были установлены, поисковик их не видел, так как не переобходил дубликаты.

График количества страниц в поиске (включая дубли)

Для ускорения удаления дублей из индекса были предприняты следующие меры:

Были выгружены страницы дубли с одинаковыми мета-тегами из отчета «Заголовки и описания».
Ежедневно страницы отправлялись через инструмент «Переобход страниц».
В несколько итераций отправлялись дубли по протоколу IndexNow.
Была создана отдельная карта сайта со страницами дубликатами.
Была увеличена скорость обхода в Вебмастере.

Рост трафика в Яндексе после начала удаления дублей

Рост исключенных дублей в качестве неканонических страниц (голубой график)

Как результат из индекса было удалено порядка 7500 дублей. Процент страниц с одинаковыми тайтлами снизился с 84% до 0%. Это положительно отразилось на росте трафика в Яндексе.

Объединение смысловых дублей

Еще один кейс от Криса Лонга. На сайте было две посадочные страницы, оптимизированные под запросы «Food Franchises» и «Fast Food Franchises» соответственно. Может показаться, что выдача по ключам должна быть разной. Однако Google трактует термины взаимозаменяемо:

В выдаче по запросу «Fast Food Franchises» ранжируются и «Food Franchises»

Контент двух страниц был похож, но владелец сайта хотел, чтобы пользователям оставались доступны оба варианта. В качестве решения использовали объединение страниц с помощью каноникла. Канонической стала страница, оптимизированная под запрос «Food Franchises», так как она включала список франшиз в том числе со страницы «Fast Food Franchises».

Сравнение трафика за очетные периоды после склейки

В результате органический трафик на каноническую страницу увеличился на 47%.

Объединение частичных дублей

Наш старый друг Крис обнаружил, что на одном из сайтов генерировалось большое количество URL-адресов с параметрами. Такие страницы содержали немного разный контент, но для поисковых систем это все равно дубликаты.

Были внедрены канонические теги, которые ссылались на целевые страницы.

По мере того, как Google удалял дубликаты из индекса и склеивал сигналы с них, был зафиксирован рост трафика более, чем на 800%.

Ответы на вопросы

Наказывает ли Гугл за дублированный контент внутри сайта?

Нет.

Мы не принимаем меры в отношении сайтов, содержащих страницы с идентичным контентом, если только не очевидно, что такие материалы призваны обмануть пользователей или поисковые алгоритмы Google. Источник.

У меня на страницах разные картинки, но текст одинаковый, это считается дублями?

Да. Ответ представителя Яндекса:

Такие страницы будут признаны дублирующими. Чтобы страницы индексировались отдельно друг от друга, необходимы отличия в текстовом содержимом.

Совершенно разные по содержимому и тексту страницы признаются дублями одной страницы и исключаются из поиска, почему?

Ответ представителя Яндекса:

Такая ситуация связана с тем, что страницы в какой-то момент отдавали сообщение об ошибке. Проверить это можно при помощи оператора [url:] в результатах поиска. Найдите с его помощью страницу-дубль, включенную в поиск: в описании страницы будет отображаться то сообщение, которое получал наш робот, когда посещал страницы. Проверьте сохраненную копию страницы: в ней тоже мог сохраниться контент, получаемый роботом. Используя инструмент "Проверка ответа сервера" посмотрите, какое содержимое страницы отдают сейчас. Если страницы отдают разное содержимое, то они смогут вернуться в поиск после их повторного индексирования.

Я настроил склейку, но в индексе все равно неправильная страница. Почему?

Пока поисковый робот не посетит страницу с которой настроена склейка, она так и будет отображаться в поиске. Самый быстрый и оптимальный способ — это отправить страницу-дубль на переобход в ручном режиме.

Вывод

Грамотное избавление от дублированного контента может поспобствовать увеличению трафика и улучшению позиций. Чтобы эффект был более заметным, рекомендуем параллельно оптимизировать сайт и по другим направлениям, например:

Как найти и убрать дубли страниц на сайте + кейсы