Читать книгу Поисковое продвижение сайтов - Сергей Анисимов - Страница 12
Техническая оптимизация сайта
13. Файл Sitemap.xml
ОглавлениеSitemap.xml – это служебный файл[46] карты сайта в формате XML[47], который позволяет сообщить поисковым системам информацию о том, как организованы данные на продвигаемом вебресурсе. В нем содержатся ссылки на все разделы и страницы, которые должны быть проиндексированы поисковыми роботами.
Как правило, sitemap.xml на больших или часто изменяющихся сайтах генерируется на лету (этот процесс легко автоматизировать). Реальный адрес файла вовсе не обязан быть site. ru/sitemap.xml: он может быть абсолютно любым, например, site.com/anything (хотя лучше, конечно, чтобы у карты сайта был осмысленный адрес).
Поисковые роботы регулярно скачивают файл карты сайта, сравнивают его с имеющейся у них версией и, если файлы отличаются (например, в скачанной версии добавились новые ссылки), индексируют изменения на сайте.
Помимо новых ссылок, файлы Sitemap помогают передать поисковику метаданные о страницах сайта. Например, можно указать дату последнего изменения, периодичность обновления контента и важность страницы на сайте по сравнению с другими разделами.
Существуют отдельные виды файлов для разных типов контента, включая видео[48] и изображения[49]. Для абсолютного большинства веб-проектов генерировать их нет смысла, но, если для продвигаемого проекта это актуально, рекомендуется разработать в движке функционал, позволяющий автоматически генерировать и обновлять соответствующие документы.
Необходимость файла sitemap.xml
Некоторые исследователи придерживаются мнения, что файл sitemap.xml не нужен для большинства сайтов. Якобы структуру веб-ресурса нужно делать настолько простой и удобной, чтобы поисковые роботы смогли без проблем добраться до любой страницы сайта и проиндексировать ее. Такая структура гораздо лучше подходит не только для поисковиков, но и для пользователей. Им становится проще пользоваться сайтом, что улучшает поведенческие факторы ранжирования (например, количество и глубину переходов, время на сайте).
Исключение составляют масштабные информационные и e-commerce проекты, где просто-напросто слишком много страниц, и сделать их все относительно легкодоступными не всегда представляется возможным.
С тем, что структуру ресурса нужно делать удобной, никто не спорит (подробнее мы поговорим об этом в главе про структурную оптимизацию сайта). И действительно, если страницы сайта корректно и полно связаны друг с другом, поисковый робот сможет рано или поздно обнаружить все материалы. Однако это не отменяет необходимости настраивать sitemap.xml для всех сайтов.
Sitemap.xml является слабым сигналом качества сайта и повышает уровень траста сайта. Даже для небольших проектов он способен помочь поисковым роботам более точно и оперативно индексировать все изменения на сайте.
Кроме того, файл карты сайта однозначно нужен, если:
– Размер сайта очень велик. В этом случае роботы могут неделями и месяцами добираться до созданных или измененных разделов.
– Сайт содержит большой архив страниц, которые не связаны друг с другом. Чтобы они были успешно просканированы, их нужно перечислить в файле sitemap.xml. При этом отметим, что несвязанные или слабо связанные страницы скорее всего все равно выпадут из индекса из-за маленького статического веса (на такие страницы стоит мало ссылок) и плохих поведенческих факторов (такие страницы не посещают пользователи).
✍ На заметку
По этой причине не всегда удается удержать в индексе поисковых систем нужные страницы.
Например, распространенным приемом является получение трафика с карточек старых товаров. Самих товаров уже нет и не будет в наличии (например, сняты с производства), поэтому карточки удаляются из каталога, но отображаются по прямым ссылкам, чтобы присутствовать в индексе и генерировать хоть какое-то количество трафика.
Чтобы удержать такие страницы в индексе поисковиков, можно попробовать оставить их в каталоге (пусть и на дальних позициях) с пометкой «Нет в наличии» и вариантами товаров-аналогов.
Настройка файла sitemap.xml
Помимо требований поисковых систем к оформлению файла и отдельных записей, при настройке sitemap.xml нужно выполнить следующие рекомендации:
1. Sitemap.xml должен генерироваться автоматически.
2. Sitemap.xml должен быть корректным, то есть в нем должны быть только те ссылки, которые представляют интерес для поисковых систем и пользователей. Служебные и малоинформативные разделы помещать в карту сайта нет смысла.
3. Для Sitemap лучше использовать формат XML, так как он позволяет предоставлять дополнительную информацию о страницах сайта. Для каждого URL нужно указать дату последнего обновления страницы (элемент lastmod). Также опционально можно указать:
a. частоту изменения страницы (элемент changefreq; слишком высокую частоту обновлений ставить не стоит, так как она может влиять на расходование краулингового бюджета);
b. относительную значимость страницы (элемент priority; этот параметр используется редко, так как корректно распределить веса самостоятельно на большом сайте проблематично).
4. Sitemap.xml должен обновляться не только при добавлении нового раздела, но и при изменении существующей страницы (меняется параметр lastmod).
5. Файл карты сайта не должен содержать синтаксических ошибок. Проверить это можно в панелях веб-мастеров поисковых систем.
6. Файл должен располагаться на том же домене, что и сайт, для которого он составлен, и отдавать HTTP-статус с кодом 200 OK.
7. Если Sitemap слишком большой (более 50 000 URL или весит более 10 Мб), нужно разбить его на несколько отдельных файлов, адреса которых указать в файле индекса Sitemap.
8. В файле нужно использовать кодировку UTF-8.
Остается добавить, что Sitemap.xml не дает гарантий, что роботы будут корректно сканировать и индексировать сайт, но повышает шансы на успех.
46
https://yandex.ru/support/webmaster/controlling-robot/sitemap.xml и https://support.google.com/webmasters/answer/156184?hl=ru&ref_ topic=4581190
47
http://www.sitemaps.org/ru/protocol.html
48
https://support.google.com/webmasters/answer/80471
49
https://support.google.com/webmasters/answer/178636