На сегодня мы уже обладаем мировым ссылочным графом, который включает более 95% ссылок, значимых для поискового ранжирования.
Однако на этом пути мы столкнулись с серьезной проблемой китайских дорвеев. Без преувеличения могу сказать, что их в тысячи раз больше, чем в России. Мы решили бороться с этой проблемой, когда в нашем индексе было известно о 14 миллиардах (!) таких доменов, и их количество увеличивалось с каждым днем на сотни миллионов.
Если индексировать все сайты подряд, то эти дорвеи генерируют в десятки раз больше документов, чем все сайты в мире.
Как же китайцы создают столько мусора?
Понятно, что купить столько доменов второго уровня невозможно. Поэтому они покупают миллионы доменов второго уровня и создают на них тысячи или миллионы поддоменов третьего уровня.
Рассмотрим один такой дорвей — http://78d8rd.touchdowntotakeoff.com/
Визуально это довольно неплохие ресурсы, которые по ряду коммерческих факторов даже лучше, чем сайты из ТОПов по конкурентным запросам. Как правило, эти сайты живут недолго, поэтому при повторной индексации они уже существовать не будут.
В Google попал всего один поддомен:
Хотя у ряда других доменов результаты бывают значительно лучше.
Так например для домена 0bo.asia Google проиндексировал много идентичных поддоменов. Все эти поддомены перелинкованы с другими сетями и внутри своей группы, образуя свой сегмент глобальной паутины.
Очевидно, что даже Google не может полноценно противостоять этой проблеме, хотя и стремится её решить.
Для очистки индекса мы внедрили необходимые механизмы, которые позволяют ещё до начала индексации подобных сайтов оценить вероятность того, являются ли они дорвеями. Хотя очевидно, что чем более жестким будет такой фильтр, тем больше и полезных сайтов не попадет в наш индекс.
Характер перелинковки можно проанализировать при помощи инструментов входящих/исходящих ссылок MegaIndex:
Обсуждение