Скандал с Robots.txt в Рунете: роботы атакуют

Скандал с Robots.txt в Рунете: роботы атакуют

28.07.2011 5 Автор Дмитрий Разахацкий
Print Friendly, PDF & Email

Сначала в поисковиках появились личные sms-сообщения клиентов сотового оператора, затем информация о клиентах секс-шопов, затем данные покупателей электронных билетов на пассажирские поезда РЖД. Затем в Гугле нашлись служебные документы российских государственных министерств и ведомств под грифом “секретно”. Что за фигня происходит?)

Кто-то говорит, что “проблема индексации страниц интернет-магазинов связана с бездумным рвением скорейшего и более качественного появления в поисковых машинах самих владельцев сайтов“, а также, что “в погоне за прибылью владельцы используют стандартные шаблоны сайтов и нанимают в роли веб-мастеров неквалифицированных людей“.

Пресс-служба “Яндекса” тоже объясняет все просто: “утечки” происходят по вине создателей сайтов, некорректно заполняющих файл robots.txt. Как известно, этот файл оповещает поисковые машины о том, какую информацию стоит или не стоит индексировать поисковому роботу.

Однако на фоне того, что сообщения об утечке личных данных появились накануне подписания президентом РФ поправок к Закону “О персональных данных”, ситуация приобретает конспирологический характер. И вот уже росийские спецслужбы во главе с ФСБ занялись расследованием “обстоятельств появления в поисковых системах личных данных пользователей различных сервисов и интернет-магазинов“.

На этом фоне оперативно появляется новый способ заработка: “квалифицированные” вебмастера начинают рассылать письма о том, что

“скрипт интернет-магазина, который Вы применяете, подвержен утечке информации: доступна информация о заказах, сделанных в магазине, причем доступна всему интернету… Разумеется, через некоторое время программисты Яндекса прикроют уязвимость со своей стороны (хотя, для них это не уязвимость, а нормальное функционирование поисковой машины, которая индексирует всю доступную ей информацию). Со стороны скрипта интернет-магазина уязвимость останется, а надо заметить, яндекс – не единственный поисковик, так что шанс того, что информация будет общедоступна – сохраняется, а глюк WebAsyst ShopScript, который применяется в Вашем интернет-магазине – сохраняет уязвимость.

Не стоит говорить, что репутация интернет-магазина – один из весомых критериев при выборе места для покупки. Предлагаю устранить текущую неполадку в максимально оперативном режиме – в течение завтрашнего дня всего за 250$. Для выполнения работ мне потребуется доступ к сайту. Готов подписать и выслать сканированную версию соглашения о конфиденциальности.”

И ведь действительно, глава Яндекса Аркадий Волож уже заявил, что разработчики поисковика попробуют сделать так, чтобы заранее уведомлять веб-мастеров о том, что нашли на их ресурсах нечто, похожее на персональную информацию. “Мы думаем, что можно сделать дополнительно, как еще повысить вежливость робота”, – сказал он. Яндекс также рассматривает возможность оперативного удаления конфиденциальной информации, попавшей в поисковой индекс.

Еще по теме  4 способа распознать "джинсу" в блогах

Какие страсти!..

Кстати, как пишут создатели платформы InSales для интернет-магазинов, подобная проблема с индексацией служебных страниц была и у них около года назад. После этого разработчики дополнительно закрыли от индексации страницы заказов во всех интернет-магазинах на платформе InSales. Тем, кто еще не видел эту систему, рекомендую обратить на нее внимание.

Содержание скрыть

Что же делать, если нежелательные страницы вашего сайта попали в поисковую выдачу?

Главное, не паниковать.

  1. Проверим, какие урлы вашего сайта уже находятся в Яндексе: здесь
  2. Создаем файл robots.txt в обычном блокноте.
  3. Читаем про правильное заполнение этого файла: вики, яндекс, robotstxt.org.ru
  4. Прописываем в disallow файлы, отвечающие за страницы заказа и любые нежелательные страницы в выдаче.
  5. Копируем файл robots.txt в корневую директорию вашего сайта.
  6. Проверяем, все ли правильно вы написали.
  7. Для ускорения процесса идем сюда или пишем в службу поддержки поисковой системы письмо с просьбой срочно удалить определенные страницы из поисковой выдачи.
  8. На сэкономленные 250$ [идем в казино; разрабатываем новый модуль заказа; обращаемся ко мне за консультацией;) выбрать свой вариант]
Еще по теме  Мир черного IT: спамеры, фармасети, ботнеты - в журналистском расследовании CNews

Что делать с robots.txt

Примеры файлов robots.txt

Robots.txt, который разрешает всем роботам индексирование всего сайта

User-agent: *
Disallow:
Host: www.вашсайт.by

Robots.txt запрещает всем роботам индексирование сайта

User-agent: *
Disallow: /
Host: www.вашсайт.by

Robots.txt запрещает всем роботам индексирование директории «abc», а также всех директорий и файлов, начинающихся с символов «abc»

User-agent: *
Disallow: /abc
Host: www.вашсайт.by

Robots.txt запрещает индексирование страницы «page.htm» в корневом каталоге сайта поисковым роботом «googlebot»

User-agent: googlebot
Disallow: /page.htm
Host: www.вашсайт.by

Robots.txt запрещает индексирование роботу «googlebot» страницы «page1.htm» в директории «directory» и роботу «Yandex» – всех директорий и страниц, начинающиеся символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.) и находящиеся в корневом каталоге сайта

User-agent: googlebot
Disallow: /directory/page1.htm

User-agent: Yandex
Disallow: /dir
Host: www.вашсайт.by

Ошибки, связанные с файлом robots.txt

Перевернутый синтаксис

Неправильно:
User-agent: *
Disallow: Yandex

Правильно:
User-agent: Yandex
Disallow: *

Запись «Disallow» содержит несколько директив

Неправильно:
User-agent: *
Disallow: /dir/ /cgi-bin/ /forum/

Правильно:
User-agent: *
Disallow: /dir/
Disallow: /cgi-bin/
Disallow: /forum/

Регистр

Неправильно:
User-agent: *
Disallow: /CGI-BIN/

Правильно:
User-agent: *
Disallow: /cgi-bin/

Отсутствие открывающей наклонной черты

Неправильно:
User-agent: *
Disallow: dir

Правильно:
User-agent: *
Disallow: /dir

Помните, что использование директив в файле robots.txt является лишь указанием поисковым роботам о правилах индексирования сайта, но никак не защищает конфиденциальную информацию на сайте от других утечек.

Успехов!


Какая модель оплаты SEO услуг кажется вам более справедливой?

Результаты

Загрузка ... Загрузка ...