Мы долго работали над решением этой проблемы и готовы к запуску технологии автоматического поиска зеркал, что позволит очистить наш индекс от бесполезных ссылок.
Выявление зеркал работает на основе алгоритма SimHash. Алгоритм позволяет быстро находить сайты с идентичным контентом. Наш индексатор в автоматическом режиме считает главным зеркалом тот домен, на который стоит подавляющее большинство внешних ссылок.
Подробнее об алгоритме SimHash: http://jmlr.org/proceedings/papers/v33/shrivastava14.pdf
В настоящий момент в базу нашего индекса попала информация только по 10% зеркал, полное обновление базы займет еще около 3 недель.
Сейчас Вы уже можете видеть записи о том, что сайт является зеркалом к основному домену:
Пример отчета по внешним ссылкам — перейти
В дальнейшем сайты зеркала будут индексировать в меньшем объеме или вовсе исключены из нашего индекса. В настоящий момент зеркала занимают до 60% нашего индекса. Исключение зеркал позволит нам использовать освобожденные ресурсы для увеличения полноты индекса и увеличение скорости его обновления.
Также это уменьшит нагрузку для серверов, которые отдают нам содержимое сайтов, что плодотворно скажется на всей экосистеме интернета.
Обсуждение