В России нет дорвеев, если сравнивать с Китаем
18 июня 2015
Автор: Nikolay Khivrin

В России нет дорвеев, если сравнивать с Китаем

Как я уже писал в начале марта этого года, мы активно работает над расширением нашего индекса внешних ссылок. Сегодня мы уже стабильно индексируем более 500 миллионов сайтов, хотя 4 марта их било только 111 миллионов штук.

На сегодня мы уже обладаем мировым ссылочным графом, который включает более 95% ссылок, значимых для поискового ранжирования.

Однако на этом пути мы столкнулись с серьезной проблемой китайских дорвеев. Без преувеличения могу сказать, что их в тысячи раз больше, чем в России. Мы решили бороться с этой проблемой, когда в нашем индексе было известно о 14 миллиардах (!) таких доменов, и их количество увеличивалось с каждым днем на сотни миллионов.

Если индексировать все сайты подряд, то эти дорвеи генерируют в десятки раз больше документов, чем все сайты в мире.

Как же китайцы создают столько мусора?

Понятно, что купить столько доменов второго уровня невозможно. Поэтому они покупают миллионы доменов второго уровня и создают на них тысячи или миллионы поддоменов третьего уровня.

Рассмотрим один такой дорвей — http://78d8rd.touchdowntotakeoff.com/



Визуально это довольно неплохие ресурсы, которые по ряду коммерческих факторов даже лучше, чем сайты из ТОПов по конкурентным запросам. Как правило, эти сайты живут недолго, поэтому при повторной индексации они уже существовать не будут.

В Google попал всего один поддомен:


Хотя у ряда других доменов результаты бывают значительно лучше.

Так например для домена 0bo.asia Google проиндексировал много идентичных поддоменов. Все эти поддомены перелинкованы с другими сетями и внутри своей группы, образуя свой сегмент глобальной паутины.



Очевидно, что даже Google не может полноценно противостоять этой проблеме, хотя и стремится её решить.

Для очистки индекса мы внедрили необходимые механизмы, которые позволяют ещё до начала индексации подобных сайтов оценить вероятность того, являются ли они дорвеями. Хотя очевидно, что чем более жестким будет такой фильтр, тем больше и полезных сайтов не попадет в наш индекс.

Характер перелинковки можно проанализировать при помощи инструментов входящих/исходящих ссылок MegaIndex:

Обсуждение

Для добавления комментария, пожалуйста, авторизуйтесь