Читать книгу Создание сайта от А до Я. Книга 4 - Владимир Вдовиченко - Страница 6

Часть 4
Создание и установка файла Robots. txt

Оглавление

Зачем нужен robots. txt

На практике, поисковые движки всё равно будут сканировать ваш сайт, даже если вы не создадите файл robots. txt. Однако, не создавать его является весьма нерациональным шагом. Без этого файла вы оставите роботам для индексации весь контент вашего сайта, и они решат, что можно показывать все части вашего сайта, даже те, которые бы вы хотели скрыть от общего доступа.

robots. txt – служебный файл, предназначенный для поисковых роботов и показывающий им, какие файлы, папки, разделы сайта следует индексировать, а какие нет. Закрытые от индексации в роботе статьи никогда не окажутся в индексе поисковых систем.

Очень важно скрыть от индексирования все ненужные файлы и папки (программную часть движка и прочее), чтобы поисковик не тратил на них силы.

Если у сайта имеются поддомены, для каждого из них формируется отдельный robots. txt.

Яндекс строго следует правилам файла robots. txt, а вот Google нет. Он запросто может проиндексировать запрещённые страницы и выводить их в поиске, особенно если на эту страницу ведут ссылки. В панели вебмастера обеих поисковых систем есть инструмент проверки файла robots. txt, которая показывает, правильно ли он работает.

Важно помнить, что изменения в robots. txt на уже рабочем сайте будут заметны только спустя некоторое время, иногда до месяца.

Где взять robots. txt для WordPress

В любой директории на вашем ПК в блокноте создайте пустой файл robots. txt Откройте его.

Зайдите на сайт https://s3.amazonaws.com/failibaza/robots.txt

Здесь выложено содержание сайта robots. txt для основных поисковых систем.

Скопируйте содержимое файла robots. txt и вставьте в свой файл. Сохраните его.

Если вы любознательны, то на сайте

https://pro-wordpress.ru/chast-2-raskrutka-bloga/pravilnyj-robots-txt-dlya-wordpress.php

узнайте, что значит каждая строчка файла.

– «User-agent: *» означает, что правила, приведённые ниже, будут действовать для всех поисковиков. Во второй части файла мы прописываем правило специально для Яндекса: «User-agent: Yandex».

– «Allow:» – разрешено индексировать. В варианте robots. txt для WordPress мы это не используем.

– «Disallow:» – запрещено индексировать.

– «Host: ваш_сайт.ru» – обязательно нужно указать основное зеркало. Ваш сайт открывается по двум адресам: с www и без www. Но в итоге происходит редирект на один из адресов (часто на блоге без www) – это и есть основное зеркало, которое нужно указать здесь. Эта строчка может быть расположена в любой части файла.

– «Sitemap:» – ссылка на XML-карту сайта. Если файлов с XML-картами несколько, пропишите путь к каждому из них.

– Регулярные выражения: звёздочка * – означает произвольную последовательность символов.

Очень подробно о директивах robots. txt написано в помощи Яндекса, поэтому если что-то не понятно, попробуйте прочитать там.

Архив файла robots. txt можно скачать по адресу: https://s3.amazonaws.com/failibaza/robots.rar и Денис Платонов (Создавалкин) http://sozdavalkin.ru/robots-txt-dlya-wordpress/

User-agent: Yandex

Disallow: /wp-admin

Disallow: /wp-includes

Allow: /wp-includes/js/*

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: *?s*

Disallow: /?s=*

Disallow: /search

Disallow: */trackback/

Disallow: */feed

Disallow: */comments/

Disallow: */comment

Disallow: */attachment/*

Disallow: */print/

Disallow: *?print=*

Disallow: */embed*

Disallow: */wp-json/*

Allow: /wp-content/uploads/

Host: ваш-сайт.ru # (Host: пробел, имя вашего сайта без http://)


User-agent: Googlebot

Disallow: /wp-admin

Disallow: /wp-includes

Allow: /wp-includes/js/*

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: *?s*

Disallow: /?s=*

Disallow: /search

Disallow: */trackback/

Disallow: */feed

Disallow: */comments/

Disallow: */comment

Disallow: */attachment/*

Disallow: */print/

Disallow: *?print=*

Disallow: */embed*

Disallow: */wp-json/*

Allow: /wp-content/uploads/


User-agent: Mail.Ru

Disallow: /wp-admin

Disallow: /wp-includes

Allow: /wp-includes/js/*

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: *?s*

Disallow: /?s=*

Disallow: /search

Disallow: */trackback/

Disallow: */feed

Disallow: */comments/

Disallow: */comment

Disallow: */attachment/*

Disallow: */print/

Disallow: *?print=*

Disallow: */embed*

Disallow: */wp-json/*

Allow: /wp-content/uploads/


User-agent: *

Disallow: /wp-admin

Disallow: /wp-includes

Allow: /wp-includes/js/*

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: *?s*

Disallow: /?s=*

Disallow: /search

Disallow: */trackback/

Disallow: */feed

Disallow: */comments/

Disallow: */comment

Disallow: */attachment/*

Disallow: */print/

Disallow: *?print=*

Disallow: */embed*

Disallow: */wp-json/*

Allow: /wp-content/uploads/


User-agent: Googlebot-Image

Allow: /wp-content/uploads/


User-agent: YandexImages

Allow: /wp-content/uploads/


User-agent: Mediapartners-Google

Disallow: # не убирайте


User-Agent: YaDirectBot

Disallow: # не убирайте


Sitemap: http://вашсайт.ru/sitemap.xml # (или http://вашсайт.ru/sitemap_index.xml)


Как установить robots. txt в WordPress

Сначала внесём в него некоторые изменения в адресацию сайта и карты.

Открываем файл с помощью блокнота.

И редактируем две строчки, в которые вставляем имя вашего сайта:

– Host: http://пробел, имя вашего сайта без http://

– Sitemap: http://Имя вашего сайта/sitemap. xml или http://вашсайт.ru/sitemap_index.xml). Зависит от плагина

В первой указываем адрес нашего сайта без WWW (так настроен наш хостинг Beget), а во второй – путь к XML карте сайта. Чтобы узнать этот путь, заходим в «Консоль/SEO/Общие»

В новом окне жмём пункт SiteMap.


Откроется окно


Вверху копируем адрес нашей XML карты.

В итоге получим:

– Host: http://penobeton.ru

– Sitemap: http://penobeton.ru/sitemap_index.xml


Сохраняем файл и переносим его в корневую папку нашего сайта.

Для этого заходим на наш хостинг (Beget), раскрываем наш аккаунт, выбираем файловый менеджер.


Откроется корневая папка


Жмём Загрузить файлы. На компьютере находим наш файл robots. txt


Жмём Загрузить. Когда загорится зелёный индикатор, значит загрузка прошла успешно.


Жмём Закрыть


Видим, что файл появился в корневой папке.


Закрываем файловый менеджер.

Чтобы быстро посмотреть содержимое файла robots. txt наберите в адресной строке браузера

адрес вашего сайта/robots. txt

Чтобы просмотреть какие страницы и записи вашего сайта проиндексированы Яндексом, в поисковой строке Яндекса наберите url: адрес сайта/*

Если вы установили плагин Yoast SEO, то отредактировать файл robots. txt можно зайдя в «Консоль/ SEO/Инструменты/Редактор файлов».

Тонкие настройки robots. txt

Ввиду особой важности этого файла можете провести более тонкие настройки файла robots. txt, изложенные на сайте:https://seogio.ru/robots-txt-dlya-wordpress/

Автор: bisteinoff Окт 19, 2018 Google, SEO, Яндекс


Один из лучших robots. txt на данный момент, это robots. txt, предложенный в блоге http://wp-kama.ru/id_803/pishem-pravilnyiy-robotstxt-dlya-wordpress.html.


Ошибочные рекомендации других блогеров для Robots. txt на WordPress

– Использовать правила только для User-agent: *

Для многих поисковых систем не требуется индексация JS и CSS для улучшения ранжирования, кроме того, для менее значимых роботов вы можете настроить большее значение Crawl-Delay и снизить за их счет нагрузку на ваш сайт.

– Прописывание Sitemap после каждого User-agent

Это делать не нужно. Один sitemap должен быть указан один раз в любом месте файла robots. txt

– Закрыть папки wp-content, wp-includes, cache, plugins, themes

Это устаревшие требования. Для Яндекса и Google лучше будет их вообще не закрывать. Или закрывать «по-умному», как это описано выше.

– Закрывать страницы тегов и категорий

Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика

– Закрывать от индексации страницы пагинации /page/

Это делать не нужно. Для таких страниц настраивается тег rel = «canonical», таким образом, такие страницы тоже посещаются роботом и на них учитываются расположенные товары/статьи, а также учитывается внутренняя ссылочная масса.

– Прописать Crawl-Delay

Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей.

– Ляпы

Некоторые правила можно отнести только к категории «блогер не подумал». Например: Disallow: /20 – по такому правилу не только закроете все архивы, но и заодно все статьи о 20 способах или 200 советах, как сделать мир лучше


Александр Борисов в своих интенсивах https://isif-life.com/school/free-kurs рекомендует более короткий файл robots. txt

User-agent: *

Disallow: /wp-

Disallow: /tag/

Disallow: */feed

Disallow: */trackback

Disallow: */page

Disallow: /author/*

Disallow: /201*

Disallow: /template.html

Disallow: /readme.html

Disallow: *?replytocom

Disallow: *?*

Allow: */uploads

Allow: *.js

Allow: *.css

Allow: *.png

Allow: *.gif


Host: урл_сайта

Sitemap: http://урл_сайта/sitemap.xml


В заключение дадим ещё одну ссылку правильной настройки файла robots. txt с возможностью скачать вариант настроенного рабочего файла:

https://wordpress-book.ru/prodvizhenie/pravilnyj-robots-txt-dlya-wordpress/

автор: Роман Ваховский, обновлено: Апрель 14, 2018

Создание сайта от А до Я. Книга 4

Подняться наверх