Скандал с Robots.txt в Рунете: роботы атакуют

28.07.2011 5 Автор Дмитрий Разахацкий

Сначала в поисковиках появились личные sms-сообщения клиентов сотового оператора, затем информация о клиентах секс-шопов, затем данные покупателей электронных билетов на пассажирские поезда РЖД. Затем в Гугле нашлись служебные документы российских государственных министерств и ведомств под грифом “секретно”. Что за фигня происходит?)

Кто-то говорит, что “проблема индексации страниц интернет-магазинов связана с бездумным рвением скорейшего и более качественного появления в поисковых машинах самих владельцев сайтов“, а также, что “в погоне за прибылью владельцы используют стандартные шаблоны сайтов и нанимают в роли веб-мастеров неквалифицированных людей“.

Пресс-служба “Яндекса” тоже объясняет все просто: “утечки” происходят по вине создателей сайтов, некорректно заполняющих файл robots.txt. Как известно, этот файл оповещает поисковые машины о том, какую информацию стоит или не стоит индексировать поисковому роботу.

Однако на фоне того, что сообщения об утечке личных данных появились накануне подписания президентом РФ поправок к Закону “О персональных данных”, ситуация приобретает конспирологический характер. И вот уже росийские спецслужбы во главе с ФСБ занялись расследованием “обстоятельств появления в поисковых системах личных данных пользователей различных сервисов и интернет-магазинов“.

На этом фоне оперативно появляется новый способ заработка: “квалифицированные” вебмастера начинают рассылать письма о том, что

“скрипт интернет-магазина, который Вы применяете, подвержен утечке информации: доступна информация о заказах, сделанных в магазине, причем доступна всему интернету… Разумеется, через некоторое время программисты Яндекса прикроют уязвимость со своей стороны (хотя, для них это не уязвимость, а нормальное функционирование поисковой машины, которая индексирует всю доступную ей информацию). Со стороны скрипта интернет-магазина уязвимость останется, а надо заметить, яндекс – не единственный поисковик, так что шанс того, что информация будет общедоступна – сохраняется, а глюк WebAsyst ShopScript, который применяется в Вашем интернет-магазине – сохраняет уязвимость.

Не стоит говорить, что репутация интернет-магазина – один из весомых критериев при выборе места для покупки. Предлагаю устранить текущую неполадку в максимально оперативном режиме – в течение завтрашнего дня всего за 250$. Для выполнения работ мне потребуется доступ к сайту. Готов подписать и выслать сканированную версию соглашения о конфиденциальности.”

И ведь действительно, глава Яндекса Аркадий Волож уже заявил, что разработчики поисковика попробуют сделать так, чтобы заранее уведомлять веб-мастеров о том, что нашли на их ресурсах нечто, похожее на персональную информацию. “Мы думаем, что можно сделать дополнительно, как еще повысить вежливость робота”, – сказал он. Яндекс также рассматривает возможность оперативного удаления конфиденциальной информации, попавшей в поисковой индекс.

Еще по теме Три серьезные ошибки владельцев интернет-магазинов, которые мешают продвижению

Какие страсти!..

Кстати, как пишут создатели платформы InSales для интернет-магазинов, подобная проблема с индексацией служебных страниц была и у них около года назад. После этого разработчики дополнительно закрыли от индексации страницы заказов во всех интернет-магазинах на платформе InSales. Тем, кто еще не видел эту систему, рекомендую обратить на нее внимание.

Содержание скрыть

1 Что же делать, если нежелательные страницы вашего сайта попали в поисковую выдачу?

2 Примеры файлов robots.txt

2.1 Robots.txt, который разрешает всем роботам индексирование всего сайта

2.2 Robots.txt запрещает всем роботам индексирование сайта

2.3 Robots.txt запрещает всем роботам индексирование директории «abc», а также всех директорий и файлов, начинающихся с символов «abc»

2.4 Robots.txt запрещает индексирование страницы «page.htm» в корневом каталоге сайта поисковым роботом «googlebot»

2.5 Robots.txt запрещает индексирование роботу «googlebot» страницы «page1.htm» в директории «directory» и роботу «Yandex» – всех директорий и страниц, начинающиеся символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.) и находящиеся в корневом каталоге сайта

3 Ошибки, связанные с файлом robots.txt

3.1 Перевернутый синтаксис

3.2 Запись «Disallow» содержит несколько директив

3.3 Регистр

3.4 Отсутствие открывающей наклонной черты

Что же делать, если нежелательные страницы вашего сайта попали в поисковую выдачу?

Главное, не паниковать.

Проверим, какие урлы вашего сайта уже находятся в Яндексе: здесь
Создаем файл robots.txt в обычном блокноте.
Читаем про правильное заполнение этого файла: вики, яндекс, robotstxt.org.ru
Прописываем в disallow файлы, отвечающие за страницы заказа и любые нежелательные страницы в выдаче.
Копируем файл robots.txt в корневую директорию вашего сайта.
Проверяем, все ли правильно вы написали.
Для ускорения процесса идем сюда или пишем в службу поддержки поисковой системы письмо с просьбой срочно удалить определенные страницы из поисковой выдачи.
На сэкономленные 250$ [идем в казино; разрабатываем новый модуль заказа; обращаемся ко мне за консультацией;) выбрать свой вариант]

Еще по теме Кейс: Дискаунтер как тип интернет-магазина с определенным дизайном?

Примеры файлов robots.txt

Robots.txt, который разрешает всем роботам индексирование всего сайта

User-agent: *
Disallow:
Host: www.вашсайт.by

Robots.txt запрещает всем роботам индексирование сайта

User-agent: *
Disallow: /
Host: www.вашсайт.by

Robots.txt запрещает всем роботам индексирование директории «abc», а также всех директорий и файлов, начинающихся с символов «abc»

User-agent: *
Disallow: /abc
Host: www.вашсайт.by

Robots.txt запрещает индексирование страницы «page.htm» в корневом каталоге сайта поисковым роботом «googlebot»

User-agent: googlebot
Disallow: /page.htm
Host: www.вашсайт.by

Robots.txt запрещает индексирование роботу «googlebot» страницы «page1.htm» в директории «directory» и роботу «Yandex» – всех директорий и страниц, начинающиеся символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.) и находящиеся в корневом каталоге сайта

User-agent: googlebot
Disallow: /directory/page1.htm

User-agent: Yandex
Disallow: /dir
Host: www.вашсайт.by

Ошибки, связанные с файлом robots.txt

Перевернутый синтаксис

Неправильно:
User-agent: *
Disallow: Yandex

Правильно:
User-agent: Yandex
Disallow: *

Запись «Disallow» содержит несколько директив

Неправильно:
User-agent: *
Disallow: /dir/ /cgi-bin/ /forum/

Правильно:
User-agent: *
Disallow: /dir/
Disallow: /cgi-bin/
Disallow: /forum/

Регистр

Неправильно:
User-agent: *
Disallow: /CGI-BIN/

Правильно:
User-agent: *
Disallow: /cgi-bin/

Отсутствие открывающей наклонной черты

Неправильно:
User-agent: *
Disallow: dir

Правильно:
User-agent: *
Disallow: /dir

Помните, что использование директив в файле robots.txt является лишь указанием поисковым роботам о правилах индексирования сайта, но никак не защищает конфиденциальную информацию на сайте от других утечек.

Успехов!

Какая модель оплаты SEO услуг кажется вам более справедливой?

Согласованный набор запросов, отслеживание их позиций, привязка стоимости SEO к позициям
Оплата за рост количества показов страниц сайта в поиске по всем запросам
Оплата за общий рост органического трафика на сайт, отслеживание динамики по важным запросам
Готов платить только за SEO-стратегию, остальное могут сделать сервисы и собственные сотрудники
Оплата только за конверсии из органического трафика (обращения, звонки и т.д.)

Результаты

Загрузка ...

Архив голосований

РубрикаE-shops Веб-дизайн Рунет

Меткииндексация страниц robots.txt примеры robotx.txt скандал с яндексом

Новость дня: “ВКонтакте” отказалась от платежной системы

Беларуские интернет-магазины распродают остатки

Беларуские интернет-магазины ликвидируют склады и самих себя

Об авторе

Дмитрий Разахацкий

Автор сайта более 15 лет занимается созданием и продвижением различных проектов в интернете, начиная от небольших блогов, заканчивая сложными веб-сервисами и крупными международными интернет-магазинами. Этот сайт посвящен SEO и интернет-маркетингу во всех его проявлениях. Подписывайтесь на рассылку, чтобы быть в курсе обновлений! Правила перепечатки.

5 комментариев

Алекс:

28.07.2011 в 13:21

“А ты уже установил себе robots.txt?” =)

Ответить
- Дмитрий Разахацкий:
  
  28.07.2011 в 14:48
  
  ага, сервис по автоматической установке robots.txt – система сама собирает нежелательные урлы и динамически закрывает-открывает их к индексации в зависимости от заданных критериев. стоимость поддержки в месяц – всего 15 уе.
  
  это стартап))))
  
  Ответить
Д.Р.:

10.08.2011 в 10:27

В поисковики попали данные клиентов «дочки» «Почты России», фамилии, имена, отчества получателей и индекс места назначения посылок EMS Russian Post. 25 июля в «Яндекс», Google, Mail.ru и Bing попали персональные данные клиентов более 80 интернет-магазинов, в том числе секс-шопов. Тогда же пользователи обнаружили закрытые фотоальбомы на сайте Qip.Ru. 27 июля поисковики проиндексировали материалы «для служебного пользования» – документы ФАС, Минэкономразвития, Счетной палаты, Минобороны. 30 июля в Google обнаружились страницы с фотографиями из социальной сети «ВКонтакте», которые удалили пользователи.

«Мегафон» обвинил в утечке «Яндекс». «Несанкционированный доступ к sms мог возникнуть через некоторые интернет-сервисы «Яндекса», занимающиеся сбором и хранением информации о действиях пользователей интернета», – заявили в сотовой компании. Этими сервисами являются бесплатные панель инструментов «Яндекс.Бар» и счетчик статистики «Яндекс.Метрика», панели инструментов Google и «тулбары» других производителей. Если пользователь не запретит, «Яндекс.Бар» собирает и передает в «Яндекс» информацию о посещаемых сайтах, страницах, загруженных файлах, тексты, введенные в адресную строку браузера, IP-адреса, данные о доступных WiFi-сетях. О том, что данные «попали в паблик» по вине «Яндекс.Бара», говорят и в RailwayTicket.

Раньше поисковики получали данные (адреса в интернете, URL) только с помощью роботов, которые ходили по сайтам. Но сейчас поисковые системы стали покупать данные, что существенно увеличило проникновение поисковиков, объясняет Клименко. По его словам, «Яндекс» тоже, скорее всего, покупает ссылки на сайты в интернете, на которые заходили люди и которые были собраны бесплатными счетчиками статистики и панелями для браузеров.

«Если бы на сайте «Мегафона» была страничка со специальными ссылками на sms, не было бы вопросов: это был бы прокол «Мегафона». Но «Яндекс» [с помощью счетчика] получил уникальную ссылку [на страницу с sms] и сразу отправил ее роботу-поисковику, хотя предварительно должен был проверить, существует ли такая ссылка на самом сайте. Так были проиндексированы заказы в магазинах, билеты и sms», – трактует Клименко.

«Утечка началась 1 июля, когда на сайт «Мегафона» установили «Яндекс.Метрику». «Дыру» обнаружили только через 18 дней», – объясняет свою позицию технический директор Positive Technologies Сергей Гордейчик. Через две недели «Яндекс» объявил, что исправил настройки «Метрики». Заодно компания могла отрегулировать и «Яндекс.Бар», предполагает он.

Эксперты по информационной безопасности сходятся во мнении, что при поиске этих данных в поисковиках использовались стандартные приемы под общим названием Google Hacking, существующие уже 15 лет. Это набор стандартных приемов, позволяющих с помощью интернет-поисковиков быстро обнаруживать явные ляпы администраторов и создателей ресурсов.

Утечки связаны исключительно с принятием нового закона, уверен генеральный директор компании «Медиамир» (Qip.ru) Михаил Гуревич. Скандалы должны были раскачать тему, согласна Касперская. «Это внутренние схватки чиновников, насколько эти поправки (в закон «О персональных данных») должны быть жесткие», – считает Гуревич. Утечка sms абонентов «Мегафона» и «нескольких тысяч» служебных документов госорганов, безусловно, были частью этой схватки, уверен он. За утечками стоят «конторы, стоящие за силовыми структурами», уверен также депутат Госдумы Илья Пономарев. «Изначально поправки в закон лоббировались ими, чтобы создать себе новый рынок», – отмечает парламентарий.

gazeta.ru

Ответить
Joker:

22.11.2011 в 17:38

Слушайте что за фигня хочю добавить сайт в яндексе выходит ошибка с robots.txt вроде все правельно делаю(
User-agent: Yandex
Disallow: /admin
Host: http://www.washSait.ru
Ну типо так но всеровно ошибка (

Ответить
- Дмитрий Разахацкий:
  
  27.11.2011 в 20:47
  
  host без http напишите
  
  Ответить

Скандал с Robots.txt в Рунете: роботы атакуют

Что же делать, если нежелательные страницы вашего сайта попали в поисковую выдачу?

Примеры файлов robots.txt

Robots.txt, который разрешает всем роботам индексирование всего сайта

Robots.txt запрещает всем роботам индексирование сайта

Robots.txt запрещает всем роботам индексирование директории «abc», а также всех директорий и файлов, начинающихся с символов «abc»

Robots.txt запрещает индексирование страницы «page.htm» в корневом каталоге сайта поисковым роботом «googlebot»

Ошибки, связанные с файлом robots.txt

Перевернутый синтаксис

Запись «Disallow» содержит несколько директив

Регистр

Отсутствие открывающей наклонной черты

Об авторе

5 комментариев

Добавить комментарий Отменить ответ

Об авторе

Случайная цитата

Фото дня

Популярное