Читать книгу 300+ факторов ранжирования в Google - Анатолий Владимирович Косарев - Страница 83

ТЕКСТЫ
59 фактор. Дубли или копии страниц на сайте

Дубли или копии – это одна и та же страница сайта, которая открывается по нескольким разным адресам.

Копии страниц чаще всего возникают, когда:

· Движок системы управления содержимым сайта (CMS) автоматически генерирует дубликаты страниц.

Например, http://site.net/press-centre/cat/view/identifier/novosti/ http://site.net/press-centre/novosti/.

· Для Google одна и та же страница, например,

http://site.net/press-centre/novosti/ – со слешем в конце http://site.net/press-centre/novosti – без слеша в конце считается, как 2 разные страницы, т.е. дубли.

· Один и тот же товар представлен в нескольких категориях. Например, костюм может быть в категории костюмы, в категории бренды, и в категории распродажа.

Например, http://site.net/category-1/product-1/ http://site.net/category-2/product-1/ http://site.net/rasprodaza/product-1/.

· При изменении структуры сайта, когда уже существующим страницам присваиваются новые адреса, но при этом сохраняются их дубли со старыми адресами.

Например,http://site.net/catalog/product http://site.net/catalog/podcategory/product.

· Это происходит, когда каждому пользователю, посещающему веб-сайт, назначается другой идентификатор сеанса, который хранится в URL-адресе.

· Версия для печати содержимого также может вызывать повторяющиеся проблемы с содержимым, когда индексируются несколько версий страниц.

· Если сайт имеет отдельные версии на «www.site.com» и «site.com» (с префиксом «www» и без него), и один и тот же контент живёт в обеих версиях. Так создаются дубликаты каждой из этих страниц. То же самое относится к сайтам, которые поддерживают версии как в http: //, так и в https: //. Если обе версии страницы являются живыми и видимыми для поисковых систем – это проблема с дублированием контента. И как говорилось раньше, вес таких страниц делится на количество страниц.

Устранение проблемы с повторяющихся контентом сводится к одной идее: указать, какой из дубликатов является «правильным».

Всякий раз, когда контент на сайте можно найти по нескольким URL-адресам, он должен быть канонизирован для поисковых систем.

(Канонический тег («rel canonical») – это способ сообщить поисковым системам, что конкретный URL-адрес представляет собой главную копию страницы.)

На данный момент используют один из трёх основных способов избавиться от индексирования дублей страниц.

· использование 301 перенаправления на правильный URL,

· rel = canonical атрибут

· или использование инструмента обработки параметров в Google Search Console.

301 перенаправление.

Во многих случаях лучшим способом борьбы с дублирующим контентом является настройка 301 перенаправления с «дублированной» страницы на исходную страницу контента.

Когда несколько страниц с потенциалом для ранжирования хорошо объединены в одну страницу, они не только перестают конкурировать друг с другом; они также создают более сильную релевантность и популярность сигнала для поисковика в целом. Это положительно повлияет на способность «правильной» страницы хорошо ранжироваться.

Атрибут rel = «canonical».

Другим вариантом для борьбы с копиями контента является использование атрибута rel = canonical. Это говорит поисковым системам, что данная страница должна рассматриваться как копия указанного URL-адреса, а все ссылки, метрики контента и «рейтинг мощности», которые поисковые системы применяют к этой странице, должны быть направлены на указанный адрес URL.

Атрибут rel = «canonical» является частью HTML-страницы, заносится в HEAD страницы, и выглядит следующим образом:

Общий формат:

<head>

…[другой код, который должен быть в HTML-заголовке веб-страницы]…

…[другой код, который может быть в HTML-заголовке веб-страницы]…

</ HEAD>

Например, для текущей страницы указать ее каноническую ссылку <link rel=«canonical» href="http://site.com/canonical-link.html"/>.

Атрибут rel = ‘’canonical’’ должен быть добавлен в HTML-заголовок каждой повторяющейся версии страницы, а часть «АДРЕС (URL) ОРИГИНАЛЬНОЙ СТРАНИЦЫ» выше заменена ссылкой на исходную (каноническую) страницу.

Атрибут передает примерно одинаковое количество веса ссылки в качестве перенаправления 301, и, поскольку он реализован на уровне страницы (вместо сервера), более легок в исполнении.

Мета-роботы Noindex.

Один метатег, который может быть особенно полезен при работе с дублями контента, – это meta robots, когда он используется со значениями «noindex, follow».

Обычно называемый Meta Noindex, Followи технически известный как content = «noindex, follow», этот тег мета-роботов добавляется в HTML-заголовок каждой отдельной страницы, который должен быть исключен из индекса поисковой системы.

Общий формат:

<head>

…[другой код, который должен быть в HTML-заголовке веб-страницы]…

…[другой код, который должен быть в HTML-заголовке веб-страницы]…

</ HEAD>

Тег meta robots позволяет поисковым системам сканировать ссылки на странице, но не позволяет им включать эти ссылки в свои индексы. Важно, чтобы дубли страниц все равно сканировалась, хотя говорите Google не индексировать ее, потому что Google явно предостерегает от ограничения доступа к общему доступу к дублированию контента на вашем веб-сайте.

Поисковые системы желают видеть все на случай, если вы сделали ошибку в своем коде.

Использование мета-роботов является особенно хорошим решением для разрешения проблемы с дублями страниц.

Предпочтительная обработка доменов и параметров в Google Search Console.

Консоль Google Search Console позволяет указать предпочтительный домен сайта (например, http://yoursite.com вместо http://www.yoursite.com) и указать, должен ли Googlebot сканировать различные параметры URL-адреса по-разному, т.е. обрабатывать параметры.

В зависимости от структуры URL-адреса и причины возникновения проблемы с дублями страниц, можно настроить или предпочитаемый домен, или обработку параметров (или оба!).

Основным недостатком использования обработки параметров в качестве основного метода работы с копиями страниц является то, что эти изменения, работают только в Google.

Любые правила, введенные с помощью Google Search Console, не повлияют на то, как Яндекса, так и других поисковых систем, которые сканируют сайт. Придется использовать инструменты для других поисковых систем в дополнение к настройке параметров в Search Console.

Файл robots. txt.

В файле robots. txt сообщается поисковым ботам, какие страницы или файлы не стоит сканировать.

Для этого используют директиву «Disallow». Она запрещает заходить на ненужные страницы.

Заметьте, если страница указана в robots. txt с директивой Disallow, это не значит, что страница не будет проиндексирована, и не попадёт в выдачу.

Это может произойти, потому что

· страница была проиндексирована ранее,

· на неё есть внутренние

· или внешние ссылки.

Инструкции robots. txt носят рекомендательный характер для поисковых ботов. Поэтому этот метод не гарантирует удаление дублей из списка ранжированных страниц.

Всегда тег rel = canonical гарантирует, что версия вашего сайта получит дополнительный кредит доверия как «оригинальный» фрагмент контента.

Дополнительные методы для работы с дублирующим контентом.

1. Если веб-мастер определяет, что каноническая версия домена – www.example.com/, то все внутренние ссылки должны идти по адресу

http: // www. example.com/example, а не http: // example.com/page

(обратите внимание на отсутствие www).

2. При копировании фрагмента контента убедитесь, что страница с копированной частью добавляет ссылку на исходный контент, а не вариант URL.

3. Чтобы добавить дополнительную защиту от копирования контента, уменьшающего SEO- вес для контента, разумно добавить ссылку на rel-canonical для ссылок на существующие страницы. Это канонический атрибут, указывающий на URL-адрес, на котором он уже включён, и это значит, что это препятствует воровству контента.

После того как устранили дублирующий контент необходимо проверить сайт ещё раз. Только так можно убедиться в эффективности проведённых действий.

Анализ сайта на дубли желательно проводить регулярно. Только так можно вовремя определить и устранить ошибки, чтобы поддерживать высокий рейтинг сайта.

Дополнительно читайте о дублях страниц в ФИЛЬТРЕ PANDA, в первой части книги «36 фильтров Google».

Подняться наверх

Читать книгу 300+ факторов ранжирования в Google - Анатолий Владимирович Косарев - Страница 83

ТЕКСТЫ59 фактор. Дубли или копии страниц на сайте

ТЕКСТЫ
59 фактор. Дубли или копии страниц на сайте