Rel canonical: исчерпывающее руководство по использованию атрибута

Определения каноничности

Каноническая страница — это страница, которую поисковая система считает главной в группе схожих по содержимому.

Каноническая ссылка — это ссылка, которая ведет на каноническую страницу и содержит атрибут rel со значением canonical: <link rel="canonical" href="ссылка"/>.

Неканоническая страница — это страница на которой размещен атрибут rel="canonical" с адресом другой страницы.

Как выглядит атрибут каноникал

Атрибут rel=“canonical” может быть прописан двумя способами:

<link rel=“canonical” href=“ссылка” /> — в блоке <head> страницы;
Link: <ссылка>; rel="canonical" — в HTTP-заголовке.

Какой из этих методов выбрать лучше всего, разберем в главе «Как указать канонический адрес страницы».

Процесс канонизации

Канонизация — это процесс выбора главной страницы среди дублей (одинаковых страниц доступных по разным адресам) и/или среди страниц с похожим контентом.

В подкасте Search Off the Record от 4 ноября 2020 сотрудник Google Мартин Сплитт рассказал, как поисковик обрабатывает канонизацию:

Сначала нужно обнаружить дубликаты, сгруппировать их вместе и отметить, что эти страницы дублируют друг друга. Затем для всех них нужно найти страницу лидера.

И то, как мы это делаем, возможно, так делают большинство людей и другие поисковые системы - сводят контент к хэшу или контрольной сумме, а затем сравнивают контрольные суммы. Это намного проще, чем сравнивать, например, 3 000 слов.

Итак, мы сокращаем содержание до контрольной суммы, потому что не хотим сканировать весь текст и потому что это просто не имеет смысла - это требует больше ресурсов, а результат будет примерно таким же. Мы вычисляем несколько видов контрольных сумм для текстового содержимого страницы, а затем сравниваем их.

На вопрос: «Обнаруживает ли такой метод только точные дубли или частичные тоже?» специалист ответил:

У нас есть несколько алгоритмов, которые пытаются обнаружить и не учитывать шаблонную часть страниц. Так, например, мы исключаем навигацию из расчета контрольной суммы, убираем нижний колонтитул. Тогда у нас остается то, что мы называем центральным элементом, то есть центральное содержимое страницы, что-то вроде самой сути страницы.

После вычисления и сравнения контрольных сумм, те, которые похожи между собой (сильно или частично) мы объединяем в дублирующий кластер.

Далее по словам Мартина, необходимо выбрать один документ из кластера, который и будет показываться в результатах поиска:

Но вычислить какая из них будет ведущей в кластере не так просто. Есть случаи, когда даже людям будет сложно определить, какая именно страница должна отображаться в результатах поиска. Мы используем более 20 сигналов, чтобы решить, какую страницу выбрать как каноническую из дублирующего кластера.

Очевидно, что один из них - это содержание страницы. Но это могут быть и другие сигналы: у какой страницы более высокий PageRank, на каком протоколе страницы (http или https), включена ли страница в карту сайта, перенаправляется ли на другую страницу, проставлен ли атрибут rel=canonical… Каждый из этих сигналов имеет свой вес, а для подсчета весовых коэффициентов мы используем машинное обучение.

После сравнения всех сигналов для всех пар страниц, мы приближаемся к фактическому определению канонической.

Почему канониклы важны для SEO

1) Поисковики не любят дублирующийся контент, потому что он засоряют выдачу. Так же алгоритмам бывает непросто выбрать правильно главную страницу. Атрибут rel="canonical" подсказывает какой URL стоит индексировать.

Google и Яндекс заявляют, что они не всегда признают указанный канонический адрес. Из-за того, что теги каноничности считаются подсказками, а не директивами (указаниями). Учитываются различные сигналы (были рассмотрены выше). Грамотное использование тегов каноничности помогает снизить риск того, что робот сочтет канонической не ту страницу.

2) Большое количество дублирующегося контента может плохо сказаться на «краулинговом бюджете» вашего сайта. Это значит поисковые системы будут тратить свои ресурсы на сканирование неуникальных страниц вместо того, чтобы находить новый или обновленный контент.

Стоит отметить, что при грамотной настройке, поисковые боты обходят неканонические страницы заметно реже канонических.

Сотрудник Яндекса Платон Щукин подчеркивает:

Поисковой робот может посещать ссылки с неканонических страниц.

Частоту обхода назвать сложно: на планирование и обход страниц влияет очень большое число факторов. И если поисковому роботу уже известны ссылки на те страницы, которые указаны на неканонических адресах, например, из файлов sitemap, робот в любом случае будет обходить их.

3) Атрибут каноничности помогает в консолидации переходов на одинаковые или повторяющиеся страницы. Это необходимо, чтобы собрать всю информацию, которая есть о разных страницах (например, ссылки на них), и связать ее с одним URL.

Например, чтобы ссылки для страницы site.ru/tea/red?gclid=123 объединить со ссылками для site.ru/tea/red.

4) Данные из отчета об эффективности в Google Search Console с 2019 привязаны к каноническим адресам. Это значит, что для получения корректных данных из отчета нужно указать правильные канонические страницы.

5) Проставленные канониклы для каждой страницы помогают защититься от спама, когда конкуренты генерируют мусорные страницы через гет-параметры.

Случаи, когда каноникал нужен✔️

Есть несколько ситуаций, когда атрибут каноникал нужно использовать. В остальных случаях его можно использовать по своему усмотрению (рассмотрим отдельно).

Для страниц-дубликатов

Нередко одна и та же страница может открываться по разным URL-адресам. Это происходит из-за того, что раздел или товар/услуга/публикация может принадлежать нескольким категориям. В этом случае необходимо выбрать один адрес, который будет считаться основным, а для остальных страниц-копий проставить каноникал.

Пример: в интернет-магазине попасть на товарную страницу майки можно тремя способами:

site.ru/t-shirt/nike/futbolka-sportivnaya/
site.ru/brands/nike/futbolka-sportivnaya/
site.ru/t-shirt/kovty/sportivnyye/futbolka-sportivnaya/

В качестве канонического урла можно выбрать любой, однако предпочтительными будут 1-й или 2-й варианты. Т.к. их уровень вложенности адреса меньше, чем у 3-го варианта. (P.S. Исследование факторов рейтинга 2016 года от Backlinko выявило сильную корреляцию между короткими адресами ссылок и высокими позициями в Google).

Также дублями с точки зрения поисковых систем считаются страницы сортировок т.к. порядок вывода содержимого не меняет сам контент. Это страницы вида:

site.ru/divany/?sort=price_asc
site.ru/divany/?sort=price_desc
site.ru/divany/?sort=new
и т.д.

Еще канониклы стоит использовать в тех случаях, когда после применения фильтров на сайте, содержимое страницы не меняется.

Например, есть страница «сплит-системы» представленная 5 моделями. После применения фильтра «Рекомендуемая площадь охлаждения» со значением «до 30 кв. м» на странице отображаются все те же 5 моделей. Т.е. в данном случае контент не изменился и поэтому стоит проставить каноникл в сторону родительской страницы.

Для страниц с похожим контентом

Если у вас есть похожий контент по разными адресами, то также стоит использовать каноникал. Например, это могут быть товары отличающиеся только цветом или размером. В этом случае выбираем из группы-страниц главную, расставляя канонические ссылки на нее. Такой вариант избавления от похожих страниц стоит применять, когда по ключу «товар+цвет», «товар+размер» нет спроса.

Для мобильных URL-адресов

Если урл адреса для мобильных устройств реализованы на отдельном домене (m.site.ru), то обязательно указывать каноническую ссылку на каждой такой странице в сторону основной (т.е. десктопной).

Для AMP-страниц

Для страниц, созданных по технологии AMP, ситуация точно такая же, что была рассмотрена выше. Для каждой AMP-страницы необходимо указать канонический адрес в сторону основной страницы.

Кстати, для Турбо-страниц, которые являются аналогом технологии AMP, по умолчанию проставляется канонический адрес.

Случай, когда можно использовать каноникал👌

Теперь рассмотрим ситуации, когда канонические адреса применяются в качестве одного из возможных решений технических проблем.

Для динамических адресов

На сайте могут формироваться динамические адреса, путем добавления различных идентификаторов и параметров в результате взаимодействия с фильтрами, за счет спама, переходов по рекламе и т.д.

site.ru/kitchen/table?material=wood&color=red
site.ru/kitchen/table?gclid=ABCD

Отсекать такие дубликаты можно с помощью канониклов, блокировки мусорных адресов по маске в robots.txt, с помощью директивы Clean-param для Яндекса (рекомендуется), с помощью инструмента "Параметры URL" для Гугла.

Для копий страниц на многоязычных и мультирегиональных сайтах

Версии одной страницы на разных языках считаются копиями, когда основной контент написан на одном и том же языке, а переведены лишь колонтитулы и прочие незначительные текстовые элементы. В этом случае нужно указать в качестве канонической страницы основную версию.

Использование rel="canonical" на пагинации

Каноникал на пагинации можно использовать в двух вариациях:

если существует общая страница, которая содержит весь контент с пагинации, то проставлять канониклы на нее;
когда на каждой странице пагинации каноникал стоит сам на себя.

Больше информации по оптимизации страниц пагинации читайте в нашей статье.

Пример применения rel="canonical" на пагинации от Гугла

Пример применения rel="canonical" на пагинации от интернет-магазина Walmart

Для отдельных страниц печати

Бывает, что страницы печати формируют отдельные страницы, которые бесполезны для поисковых систем. Например:

site.ru/gotovyy-sertifikat-covid/
site.ru/gotovyy-sertifikat-covid/print/

Установка каноникала в сторону родительской страницы поможет избежать дублирования.

Для склейки

Использовать канониклы можно для склейки страниц, когда контент одинаковый, а URL-адреса различаются только:

префиксом www или его отсутствием: https://site.ru и https://www.site.ru
протоколами http и https: http://site.ru и https:/site.ru
слешом на конце урла или его отсутствием: site.ru/seo-god/ и site.ru/seo-god

Для индексных страниц

Главная страница сайта может быть открыта по разным адресам:

site.ru/index.html
site.ru/index.htm
site.ru/index.php
site.ru/default.htm
и т. д.

Для дублей можно указать каноническую страницу в сторону основной версии.

При разном написание URL-адреса

Например, когда страницы одинаковы по контенту, а отличаются только наличием заглавных букв в адресе:

site.ru/author/mike/
site.ru/Author/Mike/

Как указать канонический адрес страницы

Есть 3 основных метода указания канонической страницы. Далее рассмотрим каждый и сравним их.

HTML-код

Самый популярный способ — это использовать тег <link> в разделе <head> HTML-документа:

<link rel="canonical" href="ссылка на каноническую страницу" />

При этом необходимо установить каноническую ссылку для всех страниц-дублей.

Http-заголовок

Каноникализация может проводится как для обычных HTML-страниц, так и для электронных документов (PDF, DOC, XLS и т.д.).

Если у вас, например, PDF-файл доступен по разным URL-адресам, то необходимо указать предпочтительный через HTTP-заголовок следующим образом:

Link: <ссылка на каноническую страницу>; rel="canonical"

Файл Sitemap

Все страницы в карте сайта по умолчанию считаются каноническими. По этой причине в сайтмапе не должно быть дубликатов. Иначе поисковые боты будут путаться в выборе канонического адреса.

Никаких атрибутов для указания канонической страницы использовать не нужно.

Сводная таблица методов

Для обычного HTML-документа размещайте конструкцию <link rel="canonical" href="ссылка"/> непосредственно на странице в разделе <head>.
Для документа формата .PDF, .DOC и т.д. используйте HTTP-заголовок с атрибутом rel="canonical".
Канонический адрес в карте сайта является менее значимым сигналом, чем атрибут rel="canonical". Поэтому на этот метод рассчитывать не стоит. Главное, чтобы в Sitemap не попадали дубли страниц, дабы не путать поисковые системы.

Установка канониклов на различных CMS и конструкторах

Для различных CMS существуют собственные плагины, которые позволяют настроить канонические URL-адреса, например, для WordPress можно воспользоваться Yoast SEO.

Для OpenCart настройка канониклов производится средствами CMS. Необходимо зайти в настройки товара и задать параметр SEO URL.

В Тильде по умолчанию проставляется каноникал сам на себя, но так же возможно изменить значение атрибута для каждой страницы вручную.

Правила использования канониклов

Джон Мюллер советует использовать только абсолютные URL-адреса:

Вы можете использовать как относительные, так и абсолютные канонические адреса. Я бы рекомендовал использовать последние. Чтобы вы были уверены, что адреса правильно интерпретируются.

В справке Яндекса такая же рекомендация:

Указывайте канонический адрес в пределах одного домена. В качестве канонического адреса задавайте абсолютный путь, например http://example.com/blog/.

✅ Правильно:

⛔ Не правильно :

Чек-лист:

Убедитесь, что вся или большая часть основного контента дублированной страницы также отображается на канонической странице.
Убедитесь, что rel=canonical указан только 1 раз на странице в разделе <head> или в HTTP-заголовке.
Убедитесь, что каноническая страница возвращает 200 ОК.
Убедитесь, что канонический адрес доступен для сканирования и индексирования.
Убедитесь, что каноническая страница указанная через атрибут rel=canonical совпадает со страницей в файле sitemap.
Убедитесь, что для группы страниц-копий выбрана единственная каноническая страница.

Как проверить каноническую страницу

Чтобы узнать какую страницу поисковая система определила в качестве канонической нужно воспользоваться специальными отчетами.

Проверка канонической страницы в Google Search Console

C помощью инструмента проверки URL в Google Search Console можно проверить, какой канонический адрес выбрала (или не выбрала) поисковая система. Нужно ввести интересующий URL, отправить запрос и получить в ответ сведения из индекса Гугла. Нас интересует отчет «Покрытие» и его статус.

Важно обращать внимание на дату сканирования. Сведения о проверяемой странице могут быть устаревшими. Если это так, то есть смысл отправить каноническую страницу на переиндексацию и дождаться обновления отчета.

Итак, возможны 4 варианта статуса. Далее про каждый подробнее.

Вариант страницы с тегом canonical

Данный статус означает, что проверяемая страница дублирует другую, которую Google считает канонической, и при этом канонический адрес верно указан.

В этом случае никаких дополнительных действий предпринимать не нужно.

Страница является копией. Канонический вариант не выбран пользователем

Это значит, что у проверяемой страницы есть точные копии и ни одна из них не указана в качестве канонической в явном виде. При этом Google считает анализируемую страницу неканонической. В отчете отображается какую страницу поисковик считает главной.

Если страница выбранная Гуглом вас не устраивает, то стоит указать каноническую страницу в явном виде через HTML-код или HTTP-заголовок. Иначе можно оставить все как есть.

Страница является копией. Канонические версии страницы, выбранные Google и пользователем, не совпадают

Это значит, что для проверяемой страницы указан канонический адрес, но Google считает, что другой URL больше подходит. Поэтому робот не проиндексировал страницу.

В справке Гугла рекомендуют пойти у них на поводу и отметить страницу как неканоническую копию. Однако если вас такой вариант не устраивает, то нужно будет проанализировать почему поисковик выбрал другую страницу (ссылка на абзац про процесс канонизации) и внести правки. Добавить каноническую страницу в карту сайта и удалить из нее дубли, проверить наличие внутренних ссылок на эту страницу, получить на нее внешние ссылки и т.д.

Страница является копией. Отправленный URL не выбран в качестве канонического

Отличие этого отчета от предыдущего в том, что страницы были принудительно отправлены на индексирование и при этом Google их считает копиями. Грубо говоря это отчет можно назвать «Зачем ты просишь меня индексировать неканонические страницы?».

Проверка канонической страницы в Яндекс.Вебмастере

В Яндекс.Вебмастере в разделе «Страницы в поиске» необходимо на вкладке «Последние изменения» отфильтровать интересующую вас страницу по условию «Статус и URL». В отчете будет указано является ли проверяемая страница канонической или нет.

Также возможно скачать данные в .XLS формате и отфильтровать данные по столбцу «status», где выбрать значение «NOT_CANONICAL». Т.о. вы получите весь список канонических страниц, которые не участвуют в поиске.

Ошибки⛔

Мы собрали наиболее популярные ошибки, которые могут возникнуть в процессе канонизации.

Блокирование с помощью файла robots.txt

Блокировка неканонических адресов в robots.txt не позволяет поисковыми роботам просканировать их содержимое. Поэтому такие страницы не смогут передавать сигналы, даже если на них установлен атрибут rel="canonical".

Если в robots.txt была заблокирована каноническая страница, то вместо нее в поиске может участвовать копия, если она доступна для индексации.

Совмещение noindex и rel="canonical"

Официальный ответ Джона Мюллер о различиях между сигналами noindex и rel=canonical и почему их нельзя совмещать:

Когда Google видит два URL с одного сайта, которые выглядят одинаково, а вы четко сообщаете о своих предпочтениях, то мы стараемся объединить их и обрабатывать как один (более сильный) URL вместо двух. Редиректы, rel=canonical, внутренние и внешние ссылки, файлы Sitemap, heflang и т.д. демонстрируют нам ваши предпочтения, поэтому чем более согласованно они применяются, тем скорее мы им последуем и используем их для канонической версии страницы.

С другой стороны, noindex (один) и директива disallow в файле robots.txt не являются четкими сигналами для каноникализации. Наличие на странице лишь тега noindex не говорит нам, что вы хотите объединить его с чем-то еще и что сигналы необходимо перенаправить. А директива disallow в файле robots.txt еще сложнее для понимания, так как мы не знаем, есть ли на сайте похожие страницы, поэтому не можем использовать данный сигнал для каноникализации.

Отсюда вытекает правило: нельзя смешивать noindex и rel=canonical: для нас это очень противоречивые сигналы. Обычно мы учитываем rel=canonical как более важный сигнал. Однако всякий раз, когда вы полагаетесь на интерпретацию со стороны компьютерного скрипта, вы уменьшаете вес вашего входа. А SEO сводится к передаче компьютерным скриптам информации о ваших предпочтениях.

Ошибка в написании канонического адреса

Речь идет о тех случаях, когда адрес канонической страницы по логике выбран правильно, но допущена ошибка в его написании. Например:

утрачен слеш в конце урла или наоборот добавлен лишний;
указан http протокол вместо https или наоборот;
домен указан с www или без него;
с ошибкой указан относительный адрес, например <link rel="canonical" href="site.ru/catalog/phones/" />.

Битые ссылки

Когда одна или несколько страниц указывают в качестве канонического адреса страницу с кодом состояния 4XX — это считается ошибкой. В этом случае сигналы с неканонических страниц никуда не перейдут.

Ссылки на страницы с редиректом

Канонические ссылки должны вести на наиболее предпочтительную версию страницы. Редирект же указывает на то, что нужно учитывать другой адрес. Из-за этого поисковые системы могут неверно интерпретировать тег или проигнорировать его вовсе.

Канонический адрес указывает на другой домен или поддомен

Эта ситуация актуальна только для Яндекса. Поисковик не учитывает канониклы, если они ведут на другой домен или поддомен.

В блоге Яндекса для вебмастеров сказано:

Стоит отметить, что межхостовый атрибут все ещё не поддерживается, поэтому, если отдельные страницы будут содержать атрибут с такими указаниями, как неканонические, они из поиска не выпадут.

Атрибут каноникал помогает указать оригинал контента. Например, если вы размещаете статью на стороннем ресурсе, но хотите чтобы в результатах поиска отображался основной URL т.е. с вашего сайта. Или у вас на основном домене и поддоменах есть одинаковые страницы (например блог).

Гугл поддерживает междоменные канонические адреса.

Конфликт канонических страниц

Не указывайте разные канонические адреса для страниц копий. Например, в карте сайта один адрес, а с помощью атрибута rel="canonical" – другой.

Цепочка канонических адресов

Например, для страницы A канонической версией является страница B, а для страницы B указан канонический адрес C. Такие цепочки путают поисковые системы из-за чего атрибут каноникал может быть проигнорирован.

Два атрибута rel=canonical

Если на странице указан атрибут 2 раза, то поисковая система проигнорирует оба варианта.

Официальный блог Гугла: 5 распространенных ошибок с rel="canonical".
Джон Мюллер ответил на вопрос, касательно наличия двух атрибутов rel=canonical.

Каноническая ссылка ведет на не релевантную страницу

301 редирект работает примерно также, как атрибут canonical. Если контент на неканонической и канонической страницах совпадает, то они склеиваются. В противном случае склейки не будет.

Если вы делаете склейку на страницу с совершенно другим контентом, то Google это будет расценивать как soft 404, что приводит к потере 100% PageRank.

Использование rel=canonical в секции <body>

Тег rel=canonical должен быть размещен в разделе <head> или в HTTP-заголовке. В секции <body> он не учитывается.

Ответы на вопросы

Какую страницу выбрать канонической?

Чтобы было проще определиться с выбором канонической страницы, обратите внимание на следующие моменты:

какая страница из группы дублей индексируется в данный момент;
посещаемость каждой из страниц;
наличие внешних/внутренних ссылок и их количество;
в качестве главной версии лучше выбирать страницу с наименьшей вложенностью URL-адреса

Предпочтительно выбирать в качестве канонической страницы ту, которая уже в индексе, обладает максимальной посещаемостью, наибольшим количеством ссылок и минимальной длинной URL-адреса.

Почему Гугл ставит каноникал не мой сайт, а на сторонний ресурс?

Такое может возникнуть по двум причинам:

Сайт был взломан и проставлен каноникал в сторону стороннего ресурса. Проверить легко. Заходим в исходной код нужной страницы и смотрим куда ведет каноникал. Если каноническая страница указана верно, то проблема может заключаться в другом.
Ваш контент скопировал более трастовый сайт и Гугл посчитал его источником материала (пример). В данном случае вы можете подать DMCA запрос на удаление контента.

Каноникал или 301 редирект?

Google и Яндекс могут передавать сигналы ранжирования на другой URL без 301-редиректа.

Джон Мюллер в июне 2021 года поделился своими мнением на этот счет:

Бывают случаи, когда при смене URL страницы технически невозможно поставить 301 редирект.

И для таких случаев есть шанс, что сигналы передадутся аналогично тому, как если бы стоял редирект.

При этом должны выполняться условия:

Контент должен быть тот же;
Старая страница должна существовать.

В общем случае лучше использовать 301 редирект, когда это возможно.

Каноникал лучше использовать в ситуациях, описанных в главе «Случаи, когда каноникал нужен».

Нужно ли ставить каноникал сам на себя?

Не обязательно. Т.е. никакого эффекта в ранжировании это не даст. Максимум защитит от появления страниц дубликатов.

Джон Мюллер заявляет, что автореферентные теги каноничности не являются обязательными, однако их применение рекомендуется.

Я рекомендую использовать автореферентные теги каноничности, поскольку это лучше всего помогает нам понять, какую именно страницу вы хотите проиндексировать, или какой адрес должен быть у проиндексированной страницы.

Даже если у вас только одна страница, иногда ее можно вызвать через разные варианты адреса — например, с определенными символами в конце, в верхнем или нижнем регистре, с www или без. Все это можно конкретизировать с помощью тега rel canonical.

Так делают в самом Гугле

В справке Яндекса сказано, что если атрибут rel="canonical" указывает на страницу, на которой размещен — это не ошибка. Робот просто посчитает ее канонической.

А в Яндексе так не делают

Вывод

rel=“canonical” — это очередной полезный инструмент для поискового продвижения, который помогает решить проблему с дублированием контента, а также с неэффективным расходованием краулингового бюджета. Главное применять канониклы только по назначению и грамотно их настраивать, тогда и будет результат.