Читать книгу Журнал PC Magazine/RE №8/2011 - PC Magazine/RE - Страница 4
Новости
Новости и комментарии: pcmag.ru/news
Летний бунт поисковых машин
ОглавлениеИюль 2011 г. в российском сегменте Интернета ознаменовался серией скандалов, связанных с активностью поисковых систем. Точнее, с тем, что роботы-краулеры этих систем, оказывается, собирают информацию в Интернете! И предоставляют ее всем, кто способен составить детализированный поисковый запрос! «Ужас!» – возмутилась общественность. – «Неужели все, что попадает в Интернет, действительно может быть проиндексировано?!» Шел 2011 г…
Поисковые машины действительно устроены так, что собирают любую открытую незашифрованную информацию. Именно благодаря поисковикам Всемирная паутина вышла на самый высокий уровень связности, какого невозможно было бы достичь одним лишь использованием гипертекста. Не будь у AltaVista, WebCrawler, Google, «Яндекса» и прочих машин возможности искать (и находить!) Web-страницы в соответствии с запросами пользователей, – Интернет до сих пор был бы пристанищем гиков, нердов, хакеров и прочих занятных персонажей хайтековского бестиария.
Более того, только благодаря поисковикам и связанным с ними системам контекстной рекламы Web-активность больших компаний и отдельных граждан получила шанс окупиться. Сам факт появления такого неприглядного бизнеса, как поисковая оптимизация, свидетельствует: именно поисковые машины правят нынешним Интернетом. Принимать или не принимать в расчет особенности их работы – решает для себя каждый создатель крупного сайта или персональной Web-странички, однако, если полностью игнорировать очевидное, происходит именно то, что случилось в середине июля с Рунетом.
Многие администраторы сайтов сами заботятся о том, чтобы поисковые роботы индексировали их странички в точности так, как до`лжно. Для этого имеются два инструмента: карта сайта (XML-файл стандартизованного протокола Sitemaps, информирующего краулеров о подлежащих индексации страницах) и перечень исключений (пресловутый файл robots.txt, где содержатся инструкции по ограничению индексации подразделов сайта).
Соответственно, если Web-мастер или владелец странички не обладают достаточной компетенцией (или же им просто лень), инструкции для поисковых роботов не будут предусматривать сокрытия конфиденциальной информации. Такой, например, как кэш страничек с SMS-сообщениями, отправляемыми с Web-сайтов сотовых операторов. Или страницы подтверждения заказа для онлайновых магазинов (от службы доставки железнодорожных билетов до секс-шопа).
Так что пенять на поисковики в данном случае бессмысленно – вместо бунта краулеров мы имеем тут дело с очередным проявлением чисто человеческой несобранности. Кстати, если речь идет о Web-кэшировании страниц с персональной информацией, доступ к ним следует организовывать с применением шифрования по протоколу HTTPS. Но тогда придется получать сертификат безопасности, своевременно его верифицировать, тратить часть вычислительных мощностей сервера на шифрование сессий… Тоже, видимо, лень.
А следом за скандалами с обнародованием нескольких тысяч SMS-сообщений и нескольких сотен счетов из онлайновых магазинов в конце июля чуть было не полыхнуло по-настоящему, когда информационные ленты запестрели сообщениями о том, что в результатах выдачи поисковых машин по запросам «совершенно секретно» и «для служебного пользования» стали попадаться соответствующие документы отечественных госорганов.
Правда, достаточно быстро выяснилось, что проиндексированными оказались не сами документы СС/ДСП, а официальные бумаги, содержащие упоминания о них. И это понятно: госсекреты у нас традиционно оберегаются строже, чем персональные данные.
Вместе с тем именно в конце июля вступили, наконец, в силу президентские поправки в закон № 152-ФЗ «О персональных данных». Теперь граждане получают основания требовать компенсации морального и материального вреда за утечку информации о себе (в том числе и через Интернет, в том числе и из-за некорректно прописанного файла robots.txt на страничке оформления заказа в онлайновом магазине).
Допустившее утечку персональных данных юридическое лицо может быть отныне оштрафовано на несколько десятков тысяч рублей, а при повторном подобном нарушении поплатиться приостановкой деятельности. Возможно, внезапное обнаружение поисковиками не защищенных от индексирования страничек с персональной информацией имело, скажем так, профилактический смысл?