Обновление алгоритма закупки под Минусинск
5 июня 2015
Автор: Nikolay Khivrin

Обновление алгоритма закупки под Минусинск

С момента запуска второй итерации Минусинска наша команда провела большую аналитическую работу, чтобы сделать наш алгоритм закупки максимально эффективным в новых условиях.

Как мы писали ранее, нам удалось собрать наиболее полную базу сайтов, которые попали под Минусинск, благодаря анализу нашей базы результатов поиска. Список насчитывает 1038 сайтов. Мы публикуем его, заменив каждый четвертый символ на "*":
http://www.megaindex.ru/minusinsk/minusinsk-1-2.txt

Далее, благодаря нашему индексу внешних ссылок, мы собрали список популярных доноров, которые ссылаются на зафильтрованные сайты. Всего было найдено 282 205 доноров, которые имели хотя бы одну ссылку на 1038 зафильтрованных сайтов.

Лидеры этого списка доноров:
pravaya.ru — 428
karelin-r.ru — 380
megatis.ru — 380
ovesti.ru — 374
sportpanorama.by — 349
horror-movies.ru — 337
sobiratelzvezd.ru — 334
razruha.ru — 332
spbit.ru — 325
donregion.ru — 320
penza-job.ru — 320
androidis.ru — 319
consulting.ru — 319
recepti.tv — 319
greekroman.ru — 318
moscow-guide.com — 312
letsart.ru — 308
san-club.net — 308
statehistory.ru — 307
yaca.yandex.ru — 306
cyberstyle.ru — 298

Очевидно, что не все из найденных сайтов являются плохими. Так например, в это множество попал Яндекс Каталог yaca.yandex.ru

Мы проверили множество гипотез, относительно того, может ли какой-то конкретный список доноров влиять на попадание сайта под Минусинск. Одна из эти гипотез дала неплохое подтверждение.

Мы проанализировали все исходящие ссылки с каждого донора из выявленных 282 тысяч. Далее мы посчитали распределение через хи-квадрат относительно того, на сколько велика вероятность того, что определенный донор может влиять на попадание под Минусинск. Если объяснить это на пальцах, то с таких доноров много ссылок на те сайты, которые попали под Минусинск и относительно мало на те, которые не попали.

Всего было выявлено 17 000 доноров, которые являются потенциально опасными. Данная модель позволила сразу исключила доноры, которые не должны принести вред для сайта:
— moscow-guide.com
— yaca.yandex.ru

По итогу, мы получили список из 17 000 потенциально опасных доноров. Для 500 доноров с максимальным уровнем опасности мы приняли решение о немедленном снятии всех ссылок наших клиентов (в дальнейшем эта цифра будет увеличена).

Также мы значительно расширили глобальный black-лист, чтобы избежать закупки новых ссылок на опасных донорах.

Так как Яндекс дал нам довольно неплохой дополнительный сигнал о том, что у них считается SEO-ссылкой, мы ожидаем значительный рост эффективности алгоритма закупки.

Обсуждение

Для добавления комментария, пожалуйста, авторизуйтесь