Выявление зеркал в индексе внешних ссылок
2 ноября 2016
Автор: Nikolay Khivrin

Выявление зеркал в индексе внешних ссылок

При анализе внешних ссылок во всех известных нам продуктах стоит проблема большого числа зеркал популярных ресурсов, что по сути добавляют мусор в отчет по внешним ссылкам.

Мы долго работали над решением этой проблемы и готовы к запуску технологии автоматического поиска зеркал, что позволит очистить наш индекс от бесполезных ссылок.

Выявление зеркал работает на основе алгоритма SimHash. Алгоритм позволяет быстро находить сайты с идентичным контентом. Наш индексатор в автоматическом режиме считает главным зеркалом тот домен, на который стоит подавляющее большинство внешних ссылок.

Подробнее об алгоритме SimHash: http://jmlr.org/proceedings/papers/v33/shrivastava14.pdf

В настоящий момент в базу нашего индекса попала информация только по 10% зеркал, полное обновление базы займет еще около 3 недель.

Сейчас Вы уже можете видеть записи о том, что сайт является зеркалом к основному домену:


Пример отчета по внешним ссылкам — перейти

В дальнейшем сайты зеркала будут индексировать в меньшем объеме или вовсе исключены из нашего индекса. В настоящий момент зеркала занимают до 60% нашего индекса. Исключение зеркал позволит нам использовать освобожденные ресурсы для увеличения полноты индекса и увеличение скорости его обновления.

Также это уменьшит нагрузку для серверов, которые отдают нам содержимое сайтов, что плодотворно скажется на всей экосистеме интернета.

Обсуждение

Для добавления комментария, пожалуйста, авторизуйтесь