
Утечка в Яндексе: все факторы ранжирования в общем доступе
02.02.202326 января 2023 года – знаменательный день. В сеть слили исходные коды Яндекса – поисковой системы и ее сервисов. При чем всем файлам в архиве выставлена принудительно “говорящая” дата модификации 24.02.2022. Среди прочего оказались раскрыты реальные факторы ранжирования. По результатам первого изучения начали писать, что в списке 1922 позиции, из которых 690 – актуальные, остальные же не используются либо отменены. На самом деле, факторов намного больше – по крайней мере, список из 17 тысяч у меня есть, осталось найти время все это изучить. Но вы правильно поняли – такие утечки меняют рынок. Что есть, что будет, чем сердце успокоится? Погадаем на списке факторов ранжирования Яндекса :)
Обо многих факторах, в принципе, было известно, о них часто писали, перечисляли их в различных seo-чеклистах. Вот пример списка основных “слитых” работающих факторов:
- PageRank (числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она «важнее»);
- возраст ссылок;
- трафик и процент органики;
- возраст документа и его последнего обновления;
- надежность хоста (тем выше, чем меньше ошибок 40x и 50x);
- ключевые слова в URL (до 3 слов);
- пессимизация;
- уровень вложенности URL;
- пользовательские факторы: CTR, last-click, добавление в закладки;
- обратные ссылки (с главных страниц важнее всего);
- баланс хороших и плохих ссылок;
- анкоры обратных ссылок;
- количество поисковых запросов;
- трафик из Википедии;
- наличие карт на странице;
- встроенное видео на странице;
- поврежденное встроенное видео на странице (отрицательный фактор);
- количество рекламы на странице;
- качество текста.
Есть отдельные факторы и поправки по регионам, например, расстояние от города, откуда был задан запрос. Как раз для тех, кто интересуется темой локального и интернационального продвижения.
Один из комментариев на searchengines.ru по поводу слитой инфы:
“Просматриваются интересны тенденции в модернизации факторов, если смотреть список по датам обновления. Многие интуитивные и практические выводы теперь нашли своё фактическое обоснование: учёт посещаемости документа по Яндексбару, анализ возвратов, оценка пользовательского ядра и прочее. Весьма любопытны факторы по сбору рабочих метрик владельца хоста – это прям стало в некоторой степени неожиданностью. Есть любопытные рабочие точки для тех, кто работает с ПФ.”
Кроме того, точно подтвердилось, что фактор случайности в поисковой выдаче существует (нужен для обучения нейронной сети и “проверки разработчиков на вшивость”) и любая страница сайта может попасть на высокие места без всяких причин.
Некоторые факторы в списке выглядят откровенным издевательством, например:
- количество (/) в URL (чем больше, тем хуже);
- цифры в URL (снижают позиции);
- +1 балл к общему весу страницы, если на сайте есть реклама Яндекса;
- средняя позиция домена по всем запросам.
Цифры в урле, которые снижают позиции, мне взрывают мозг. То, что Яндекс цифры не любит и не считает их значимым фактором, я давно выяснил опытным путем и статью даже писал о том, как этот поисковик игнорирует разницу в запросах с цифрами. Но чтоб так вот, чтоб за цифры еще и понижали специально страницы – это полная жесть, конечно.
Или вот один из применяемых факторов ранжирования, вчитайтесь:
“Если главная страница владельца (чаще всего домен второго уровня, например xxxx.ru), то фактор равен 1. Для бомжатников, хостингов, личных блогов и т.д. (например, лайфджорнал, народ.ру и пр.) – домены третьего уровня (типа xxxxx.narod.ru) так же будут иметь фактор равный 1.”
Интересно, что Яндекс в своих извинениях признал, что из-за этой утечки в результате проверки данных обнаружились “случаи, когда логику работы сервисов корректировали не алгоритмическим способом, а «костылями» (на языке разработчиков так называется временное решение, реализованное неоптимально и впопыхах). Через такие «костыли» исправляли отдельные ошибки системы рекомендаций, которая отвечает за дополнительные элементы поисковой выдачи, и регулировали настройки поиска по картинкам и видео”. И пообещал дальше быть честным, как и завещал “великий Волож”.
Ну что сказать. Честный Яндекс существует. Как говорится, верьте мне люди – пиар был, есть и будет лишь другом человека. Ага.
А мы пока поизучаем, что нашлось…
Смотрите в комментариях ссылки на дополнительные статьи.

Более-менее подробная статья на форбс, к чему может привести подобная утечка:
https://www.forbes.ru/tekhnologii/484285-kod-v-meske-cto-my-uznali-iz-utecki-dannyh-andeksa-i-k-cemu-ona-privedet
Пост на хабре с размышлениями, почему и кто виноват, с точки зрения разработчика:
https://habr.com/ru/post/713402/
Еще 2 статьи на английском с обзорами с точки зрения seo:
https://searchengineland.com/yandex-leak-learnings-392393
https://www.searchenginejournal.com/yandex-data-leak/477905/