Читать книгу Поисковые алгоритмы ранжирования сайтов - Анатолий Косарев - Страница 10

НАЧАЛО
4 ЭТАПА ПОИСКА поисковиков, которые должны знать все SEO-специалисты
4 стадии поиска

Включение веб-контента в результаты поиска осуществляется множеством различных процессов. В некотором смысле может быть грубым упрощением сказать, что для этого требуется всего несколько отдельных этапов.

Каждая из четырех стадий, которые я здесь рассматриваю, имеет несколько подпроцессов, которые могут происходить внутри них.

Помимо этого, существуют важные процессы, которые могут быть асинхронными с ними, например:

· Типы защиты от спама.

· Включение элементов в Граф знаний и обновление панелей знаний информацией.

· Обработка оптического распознавания символов в изображениях.

· Преобразование аудио в текст, в аудио и видео файлах.

· Оценка и применение данных PageSpeed.

· И более.

Ниже приведены основные этапы поиска, необходимые для того, чтобы веб-страницы отображались в результатах поиска.

ПОЛЗАНИЕ

Сканирование происходит, когда поисковая система запрашивает веб-страницы с серверов веб-сайтов.

Представьте, что Google, Яндекс и Microsoft Bing сидят за компьютером, вводят или нажимают ссылку на веб-страницу в окне своего браузера.

Таким образом, машины поисковых систем посещают веб-страницы так же, как и каждый из нас. Каждый раз, когда поисковая система посещает веб-страницу, она собирает копию этой страницы и отмечает все ссылки, найденные на этой странице. После того, как поисковая система соберет эту веб-страницу, она перейдет к следующей ссылке в своем списке ссылок, которые еще предстоит посетить.

Это называется «сканированием» или «пауками», что вполне уместно, поскольку сеть метафорически представляет собой гигантскую виртуальную сеть взаимосвязанных ссылок.

Программы сбора данных, используемые поисковыми системами, называются «пауками», «ботами» или «краулерами».

Основной программой сканирования Google является «Googlebot», в Яндекс – YandexBot/3, а у Microsoft Bing – «Bingbot». У каждого есть другие специализированные боты для просмотра рекламы (например, GoogleAdsBot и AdIdxBot), мобильных страниц и многого другого.

Этот этап обработки веб-страниц поисковыми системами кажется простым, но есть много сложностей в том, что происходит, только на этом этапе.

Подумайте о том, сколько может быть систем веб-серверов, работающих под управлением разных операционных систем разных версий, а также различных систем управления контентом (например, WordPress, Wix, Squarespace), а затем уникальных настроек каждого веб-сайта.

Многие проблемы могут помешать роботам поисковых систем, сканировать страницы, что является отличной причиной для изучения деталей, связанных с этим этапом.

Во-первых, поисковая система должна в какой-то момент найти ссылку на страницу, прежде чем она сможет запросить страницу и посетить ее. (Было известно, что при определенных конфигурациях поисковые системы подозревают, что могут быть другие, нераскрытые ссылки, такие как один шаг вверх в иерархии ссылок на уровне подкаталога или через некоторые ограниченные внутренние формы поиска на веб-сайте.)

Поисковые системы могут обнаруживать ссылки веб-страниц следующими способами:

· Когда администратор веб-сайта отправляет ссылку напрямую или раскрывает карту сайта поисковой системе.

· Когда другие сайты ссылаются на страницу.

· Через ссылки на страницу с собственного веб-сайта, при условии, что на веб-сайте уже есть некоторые проиндексированные страницы.

· Посты в социальных сетях.

· Ссылки найдены в документах.

· URL-адреса, найденные в письменном тексте и не связанные гиперссылками.

· Через метаданные различного рода файлов.

· И более.

В некоторых случаях веб-сайт дает указание поисковым системам не сканировать одну или несколько веб-страниц через свой файл robots. txt, который находится на базовом уровне домена и веб-сервера.

Файлы robots. txt могут содержать в себе несколько директив, указывающих поисковым системам, что веб-сайт запрещает сканирование определенных страниц, подкаталогов или всего веб-сайта.

Указание поисковым системам не сканировать страницу или раздел веб-сайта не означает, что эти страницы не могут отображаться в результатах поиска. Предотвращение их сканирования таким образом может серьезно повлиять на их способность хорошо ранжироваться по ключевым словам.

В других случаях поисковые системы могут с трудом сканировать веб-сайт, если сайт автоматически блокирует ботов.

Это может произойти, когда системы веб-сайта обнаружат, что:

· Бот запрашивает больше страниц за определенный период времени, чем человек.

· Бот одновременно запрашивает несколько страниц.

· IP-адрес сервера бота находится в пределах зоны, которую веб-сайт должен исключить.

· Запросы бота и/или запросы других пользователей на страницы перегружают ресурсы сервера, что приводит к замедлению обслуживания страниц или ошибкам.

Однако боты поисковых систем запрограммированы на автоматическое изменение коэффициента задержки между запросами, когда они обнаруживают, что сервер изо всех сил пытается не отставать от спроса.

Для крупных веб-сайтов с часто меняющимся содержимым страниц «краулинговый бюджет» может стать фактором, определяющим, смогут ли поисковые роботы сканировать все страницы.

По сути, Интернет – это что-то вроде бесконечного пространства веб-страниц с разной частотой обновления. Поисковые системы могут не успеть посетить каждую страницу, поэтому они расставляют приоритеты для сканируемых страниц.

Веб-сайты с огромным количеством страниц или сайты, которые медленнее реагируют, могут израсходовать свой доступный краулинговый бюджет до того, как будут просканированы все их страницы, если они имеют относительно более низкий ранговый вес по сравнению с другими веб-сайтами.

Полезно отметить, что поисковые системы также запрашивают все файлы, которые используются для создания веб-страницы, такие как изображения, CSS и JavaScript.

Как и в случае с самой веб-страницей, если дополнительные ресурсы, участвующие в создании веб-страницы, недоступны для поисковой системы, это может повлиять на то, как поисковая система интерпретирует веб-страницу.

РЕНДЕРИНГ

Когда поисковая система сканирует веб-страницу, она затем «рендерит» страницу. Это включает в себя использование информации HTML, JavaScript и каскадной таблицы стилей (CSS) для создания того, как страница будет отображаться для пользователей настольных компьютеров и/или мобильных устройств.

Это важно для того, чтобы поисковая система могла понять, как содержимое веб-страницы отображается в контексте. Обработка JavaScript помогает гарантировать, что они могут иметь весь контент, который пользователь-человек увидит при посещении страницы.

Поисковые системы классифицируют этап рендеринга как подпроцесс на этапе сканирования. Я перечислил это здесь как отдельный шаг в процессе, потому что получение веб-страницы и последующий анализ содержимого, чтобы понять, как оно будет выглядеть в браузере, – это два разных процесса.

Google использует тот же движок рендеринга, что и браузер Google Chrome, называемый «Rendertron», который построен на основе системы браузера Chromium с открытым исходным кодом.

Bingbot использует Microsoft Edge в качестве механизма для запуска JavaScript и отображения веб-страниц. Теперь он также построен на основе браузера на основе Chromium, поэтому он по существу отображает веб-страницы так же, как это делает Googlebot.

Google хранит копии страниц в своем репозитории в сжатом формате. Похоже, что Microsoft Bing тоже так делает (но я не нашел документации, подтверждающей это также как и на Яндекс). Некоторые поисковые системы могут хранить сокращенную версию веб-страницы, состоящую только из видимого текста, лишенного всего форматирования.

Рендеринг в основном становится проблемой в SEO для страниц, ключевые части контента которых зависят от JavaScript/AJAX.

И Google, и Яндекс, и Microsoft Bing будут выполнять JavaScript, чтобы увидеть весь контент на странице, а более сложные конструкции JavaScript могут быть сложными для работы поисковых систем.

Я видел веб-страницы, созданные с помощью JavaScript, которые были практически невидимы для поисковых систем. Это приводило к крайне неоптимальным веб-страницам, которые не могли ранжироваться, по своим поисковым запросам.

Я также видел случаи, когда страницы категорий с бесконечной прокруткой на веб-сайтах электронной коммерции плохо работали в поисковых системах, потому что поисковая система не могла видеть столько ссылок на продукты.

Другие условия также могут мешать рендерингу. Например, когда есть один или несколько файлов JavaScript или CSS, недоступных для роботов поисковых систем из-за того, что они находятся в подкаталогах, запрещенных robots. txt, будет невозможно полностью обработать страницу.

Googlebot YandexBot/3 и Bingbot в основном не будут индексировать страницы, для которых требуются файлы cookie. Страницы, которые условно предоставляют некоторые ключевые элементы на основе файлов cookie, также могут не отображаться полностью или должным образом.

ИНДЕКСАЦИЯ

После того, как страница просканирована и отображена, поисковые системы обрабатывают страницу, чтобы определить, будет ли она сохранена в индексе или нет, и понять, о чем эта страница.

Индекс поисковой системы функционально подобен индексу слов, найденных в конце книги.

В указателе книги будут перечислены все важные слова и темы, найденные в книге, в алфавитном порядке каждого слова, а также список номеров страниц, на которых будут найдены слова/темы.

Индекс поисковой системы содержит множество ключевых слов и последовательностей ключевых слов, связанных со списком всех веб-страниц, на которых найдены ключевые слова.

Индекс имеет некоторое концептуальное сходство с таблицей поиска базы данных, которая, возможно, изначально была структурой, используемой для поисковых систем. Но основные поисковые системы, вероятно, теперь используют что-то на пару поколений более сложное для достижения цели поиска ключевого слова и возврата всех URL-адресов, относящихся к слову.

Использование функциональности для поиска всех страниц, связанных с ключевым словом, является архитектурой, позволяющей экономить время, поскольку для поиска всех веб-страниц по ключевому слову в режиме реального времени каждый раз, когда кто-то ищет его, потребуется слишком много времени.

Не все просканированные страницы останутся в поисковом индексе по разным причинам. Например, если страница содержит метатег robots с директивой «noindex», он указывает поисковой системе не включать страницу в индекс.

Точно так же веб-страница может включать X-Robots-Tag в свой HTTP-заголовок, который указывает поисковым системам не индексировать страницу.

В других случаях канонический тег веб-страницы может указать поисковой системе, что страница, отличная от текущей, должна считаться основной версией страницы, в результате чего другие, неканонические версии страницы будут исключены из индекса.

Google также заявил, что веб-страницы не могут быть сохранены в индексе, если они имеют низкое качество (страницы с повторяющимся содержанием, страницы с недостаточным содержанием и страницы, содержащие полностью или слишком много нерелевантного контента).

Также существует долгая история, которая предполагает, что веб-сайты с недостаточным коллективным рейтингом PageRank могут не индексировать все свои веб-страницы – предполагая, что более крупные веб-сайты с недостаточным количеством внешних ссылок могут не быть тщательно проиндексированы.

Недостаточный краулинговый бюджет также может привести к тому, что веб-сайт не проиндексирует все свои страницы.

Важным компонентом SEO является диагностика и исправление случаев, когда страницы не индексируются. По этой причине рекомендуется тщательно изучить все различные проблемы, которые могут ухудшить индексацию веб-страниц.

РЕЙТИНГ

Ранжирование веб-страниц – это этап обработки поисковыми системами, которому, вероятно, уделяется наибольшее внимание.

Как только поисковая система получает список всех веб-страниц, связанных с определенным ключевым словом или ключевой фразой, она должна определить, как она будет упорядочивать эти страницы при выполнении поиска по ключевому слову.

Если вы работаете в сфере SEO, вы, вероятно, уже хорошо знакомы с тем, что включает в себя процесс ранжирования. Процесс ранжирования поисковой системы также называют «фильтрацией», или «индексацией».

Сложность, связанная с стадией ранжирования поиска, настолько велика, что одна только она заслуживает описания в нескольких книгах.

Критериев, влияющих на ранжирование веб-страницы в результатах поиска, очень много. Сигналы, которые Google снимает с веб-страницы, исчисляются тысячами. Сигнала собраны в группы, которые будем называть векторами или алгоритмами. А алгоритмы сгруппированы в фильтры.

Например, наибольшее количество алгоритмов ранжирования собраны в фильтры, такие как PENGUIN, HUMMINGBIRD и POSSUM.

PageRank – это самая ранняя версия фильтра ранжирования Google, изобретенная в 1996 году. Он был построен на концепции, согласно которой ссылки на веб-страницу – и относительная важность источников ссылок, указывающих на эту веб-страницу, – могут быть рассчитаны для определения относительной силы ранжирования страницы, на все остальные страницы.

Метафора для этого заключается в том, что ссылки в некоторой степени рассматриваются как голоса, и страницы с наибольшим количеством голосов будут занимать более высокое место в рейтинге, чем другие страницы с меньшим количеством ссылок/голосов.

Перенесемся в 2022 год, и большая часть ДНК старого алгоритма PageRank все еще встроена в алгоритм ранжирования Google. Этот алгоритм анализа ссылок также повлиял на многие другие поисковые системы, которые разработали аналогичные методы.

Старый метод алгоритма Google должен был итеративно обрабатывать ссылки в Интернете, передавая значение PageRank между страницами десятки раз, прежде чем процесс ранжирования был завершен. Эта итеративная последовательность вычислений на многих миллионах страниц может занять почти месяц.

В настоящее время новые ссылки на страницы вводятся каждый день, и Google рассчитывает рейтинг своего рода капельным методом, что позволяет учитывать страницы и изменения гораздо быстрее, не требуя месячного процесса расчета ссылок.

Кроме того, ссылки оцениваются сложным образом – отзыв или снижение ранжирования платных ссылок, проданных ссылок, заспамленных ссылок, ссылок, не одобренных, и т. д.

На ранжирование также влияют широкие категории факторов, помимо ссылок, в том числе:

· Экспертиза, Авторитетность и Надежность или сокращенно EAT.

· Качественный контент.

· Расположение/близость нахождения товара или услуги.

· История личного поиска пользователя.

· Зашифрованный и незашифрованный (использование Secure Socket Layer или SSL) для доставки веб-страниц, обозначенных префиксом URL-адреса «HTTPS».

· Мобильность сайта.

· Скорость загрузки страницы.

· И еще много факторов, о которых рассказывается в этой книги.

Подняться наверх

Читать книгу Поисковые алгоритмы ранжирования сайтов - Анатолий Косарев - Страница 10

НАЧАЛО4 ЭТАПА ПОИСКА поисковиков, которые должны знать все SEO-специалисты4 стадии поиска

НАЧАЛО
4 ЭТАПА ПОИСКА поисковиков, которые должны знать все SEO-специалисты
4 стадии поиска