Яндекс раскрыл алгоритм формирования быстрых ответов и проговорился про description || Блог Megaindex.com

Для ряда поисковых запросов наличие страниц в поисковой выдаче не требуется.

Yandex раскрыл алгоритм формирования фактовых ответов, а еще проговорился про формирование description.

Как поисковая система формирует быстрые ответы?

Рассмотрим тему далее.

1 — Колдунщики Яндекса. Что это?

Что такое колдунщики Яндекса? Колдунщики — это элементы поисковой выдачи, которые отвечают на поисковый запрос прямо на странице с результатами поиска. Это может быть прогноз погоды, картинка, перевод слова и многое другое. В результате пользователь проводит быстрый поиск, и в большинстве из случаев не посещает сайты.

Пример колдунщика в поисковой выдаче:

В поисковой выдаче Google есть блоки с подобными ответами.

Еще поисковые системы совершенствуются, переходят от поиска по ключевым фразам к поиску по смыслам (алгоритм BERT).

В результате поисковые системы монополизируют трафик. Рекомендованный материал в блоге MegaIndex на тему монополизации трафика по ссылке далее — Аналитические данные о поисковой выдаче Google, которые могут изменить планы на продвижение.

На языке инженеров такие блоки называются блоками с фактовыми ответами.

Как такие блоки формируются, чем различаются и что важного произошло в этой области за последнее время?

2 — Алгоритм Fact Snippet. Как формируются фактовые ответы

Сначала были имплементированы блоки без интерактивных функций, то есть блоки без взаимодействий. Например:

Блок с фактическим ответом в поисковой выдаче

Ответы на подобные запросы встречаются в поисковой выдаче с высокой частотой. В результате многие сайты потеряли трафик. Например, поисковый запрос:

мой ip адрес

Раньше трафик забирал 2ip. Теперь трафик забрал Yandex.

Рассмотрим детали. Весь процесс создания таких блоков в поисковой системе выглядел так:

Специальные сотрудники анализировали наиболее популярные запросы, выбирали те, на которые можно найти короткий ответ. Так были охвачены наиболее популярные ключевые фразы;
Затем были использованы толокеры. Сначала выдвигалась гипотеза. Затем отвечали толокеры. Адекватность ответов перепроверялась.

Затем система получила еще ряд улучшений.

Был разработан алгоритм Fact Snippet. Сначала алгоритм должен был использовать текст из description. Имеется ввиду текст, который генерируется алгоритмом поисковой системы вне зависимости от фактического description. Но информативное описание страницы не во всех случаях является прямым ответом на вопрос.

Поэтому в Яндекс сделали так. Сначала нейросетевая модель была обучена на уже известных ответах. Затем происходит так — нейросетевая модель строит векторы ответов для найденных в поиске страниц и сравнивает их с вектором запроса.

Большинству запросов не требуется фактовый ответ. Поэтому в Yandex улучшили алгоритм для отсева нефактовых запросов. Задача была решена.

Дальше в Yandex поставили задачу по выходу за пределы фактов. Появился алгоритм Fact Snippet 2.

Пример ответа в поисковой выдаче:

Результат поискового алгоритма Fact Snippet

Результат поискового алгоритма Fact Snippet

Если упростить, то Fact Snippet 2.0 — это тот же Fact Snippet, но без требования найти исчерпывающий ответ.

В Fact Snippet 2.0 адаптированы оба этапа так, чтобы находить ответы на более широкий срез вопросов.

Такие ответы не претендуют на энциклопедическую полноту, но всё равно полезны. Иногда хорошие ответы есть в иных источниках. Например, на картах. К примеру, зачем предлагать адрес организации текстом, если можно показать интерактивную карту, номер телефона и отзывы. Проблему решает блендерный классификатор.

Блендерный классификатор в выдаче поисковой системы Yandex

Блендерный классификатор в выдаче поисковой системы Yandex

В результате еще больше ключевых фраз охвачены. В поисковой выдаче еще больше быстрых ответов. Но нет предела желанию монополизировать трафик. Алгоритм еще улучшили.

Переформулировки запросов. Часть поисковых запросов остались не охвачены. Существенная доля — таких ключевых фраз является переформулировками уже известных фраз. Например:

в какое время зубы меняет щука

когда щука меняет зубы

Данную задачу решает механизм поиска алиасов. Работает так:

Берутся все запросы, на которые есть ответы;
Преобразуются в векторы и кладутся в индекс k-NN. Применяется оптимизированная версия индекса HNSW, которая позволяет искать быстрее;
Строятся векторы запросов, на которые нет ответа по прямому совпадению;
Ищется топ N наиболее похожих запросов в k-NN;
Далее топ прогоняется через катбустовый классификатор тройки: запрос пользователя, запрос из k-NN, ответ на запрос из k-NN;
Если вердикт классификатора положительный — запрос считается алиасом запроса из k-NN, поисковая система может вернуть уже известный ответ.

Главная задача заключается в написании факторов классификатора. Самые сильные:

Векторы запросов;
Расстояния Левенштейна;
Пословные эмбеддинги;
Факторы на основе разнообразных колдунщиков по каждому из запросов;
Расстояние между словами запросов.

Кстати определить смысловую близость запросов можно и другими способами. Например, если два запроса отличаются друг от друга одним словом, то как вариант можно проверить, как отличаются результаты поиска по этим запросам (посмотреть на число совпадающих ссылок в топе).

В быстром режиме искать алиасы не просто из-за ограничений по техническим ресурсам, потому применяют BERT. Сделали так:

Собрали BERT-моделью очень много (сотни миллионов) искусственных оценок;
Обучили на них более простую нейронную сеть DSSM, которая очень быстро работает в рантайме.

В результате с некоторой потерей точности удалось получить сильный фактор.

3 — Нейросуммаризация поиска. Сайты больше будут не нужны

Далее в поисковой системе Yandex стоит задача по созданию ответов на базе разных источников. Речь про проект нейросуммаризации поиска. Иными словами, сайты будут источником контента, а поисковая система будет генерировать ответ на базе найденного контента на сайте.

Интересный нюанс

В ходе разбора работы алгоритма фактовых ответов Яндекс рассказал про формирование текста для сниппетов страниц. Поисковая система способна автоматически создавать текст для сниппета.

Как создается текст? Алгоритм ищет лучший фрагмент текста на странице. Применяется модель CatBoost, которая оценивает близость фрагмента текста и запроса.

По сути алгоритм нацелен на то, чтобы выдать в тексте сниппета фактический ответ.

Алгоритм формирования сниппета Yandex

Здесь открывается поле для манипуляций. Значение для сниппета задается через description. Например, для сайта indexoid:

Но прописывать значение для description является необязательным условием для индексации страницы.

В результате поисковой есть вариант:

Создать группы страниц без описания. Например, копии страниц лидеров поиска;

Выявить какой именно фрагмент текста является лучшим ответом на ключевую фразу;
Применить полученные данные в текстовой оптимизации страниц сайта.

Еще пример:

Создать группы страниц без описания. Например, группы страниц на одну тему, но с разным текстом;
Выявить какой именно фрагмент текста является лучшим ответом на ключевую фразу;
Применить полученные данные в текстовой оптимизации страниц сайта.

По сути, поисковый алгоритм сравнивает два вектора: вектор запроса и вектор текста документа.

Чем ближе векторы в многомерном пространстве, тем ближе смыслы текстов по данным поисковой системы.

Выводы

В поисковой системе Yandex переходят от поиска страниц по ключевым фразам к поиску ответов. В результате будет реклама поисковой системы и прямые ответы, а трафик на страницы сайтов будет идти лишь через навигационные ключевые фразы.

В поисковой системе Google двигаются аналогичным образом. Рекомендованный материал в блоге MegaIndex на тему поиска по смыслу по ссылке далее — ГУГЛ БЕРТ.

Fact Snippet работает в два этапа. В Fact Snippet 2 принцип подобный, но есть нюансы. Этапы в Fact Snippet следующие:

На первом этапе с помощью лёгкой модели оценивается фактовость запроса, иными словами проверяется фактовый ответ или нет;
Если да, ответ выводится в поисковой выдаче.

Для Fact Snippet 2.0 адаптированы оба этапа так, чтобы искать решение по более широкому срезу вопросов. Такие ответы не претендуют на энциклопедическую полноту, но всё равно полезны.

Сниппеты сайтов влияют на кликовые факторы.

Для увеличения кликабельности в поисковой выдаче следует создавать привлекательный текст, и для решения задачи по созданию кликабельных сниппетов можно использовать анализ сниппетов страниц конкурентных сайтов.

Ссылка на сервис — Анализ сниппетов.

Анализ сниппетов в выдаче

Что вы думаете о тенденциях? Какие шаги предпринимаете? Напишите в комментариях.

Добавить комментарий

Обсуждение

siverum

14:16 28 May 2020

депрессия. решит повешаться. пошел за мылом...

Albegx

14:27 28 May 2020

Комментарий был удален

timursajhov

15:10 28 May 2020

Это вы про организацию в Я. Справочнике?

cwolo4

15:39 28 May 2020

Очень интересно, если не жалко то подробнее скиньте на мыло cwolo4@bk.ru

avito

19:00 28 May 2020

stugase@gmail.com пожалуйста и мне тоже :)))

ecobarrier-ru

02:49 3 июня 2020

пожалуйста и мне тоже - hornt@yandex.ru

natik_kv

21:38 28 May 2020

Крайне интересный момент, потому что, что ни делаешь, гугл неприступен. Если не жалко можно подробнее natik_kv@inbox.ru

info

10:21 29 May 2020

очень круто! поделитесь, пожалуйста на мыло info@economenergo.ru

martinov_a

10:31 29 May 2020

Можно и мне пожалуйста)) martinov_a@mail.ru

11:57 29 May 2020

Можно и мне, пожалуйста) info@allora.by

do-vs

В письме буква "р" лишняя
фактоРвых

ebolvirus

14:52 28 May 2020

Если сайты будут не нужны и их перестанут делать, откуда базы будет пополняться актуальной информацией? должен сформироваться какой-то баланс. На 100% ограблении вебмастеров экономика встанет.

radiy77

05:22 30 May 2020

я тоже об этом подумал, но возможно яша располагает таким массивом данных, которого достаточно для принятия решений. С другой стороны весь этот массив сойдет на нет или часть его потеряет актуальность. Следим за развитием событий) В целом ситуация странная/стрёмная.

pro_rok89

15:01 28 May 2020

Был ли опыт подобной оптимизации? Какие результаты и выводы?
"В результате поисковой есть вариант:
Создать группы страниц без описания. Например, копии страниц лидеров поиска;
Выявить какой именно фрагмент текста является лучшим ответом на ключевую фразу;
Применить полученные данные в текстовой оптимизации страниц сайта.
Еще пример:
Создать группы страниц без описания. Например, группы страниц на одну тему, но с разным текстом;
Выявить какой именно фрагмент текста является лучшим ответом на ключевую фразу;
Применить полученные данные в текстовой оптимизации страниц сайта."

15:04 28 May 2020

Ну и спасибо за ликбез)
Не знал, что такое Расстояния Левенштейна и Пословные эмбеддинги;

megaindex

15:19 28 May 2020

Это не застраховывает их от ошибок. После написания статьи, Яндекс убрал собственную выдачу.
https://zen.yandex.ru/media/napulse/i-iandeks-oshibaetsia-5de8b9f2ba281e39882b78a4

l2toplist

22:28 28 May 2020

мне кажется вебмастеру совсем не нужно заморачиваться со снипетами, это прямая задача поисковика, нахрен он тогда нужен. А если трафф будут воровать весь, тогда и актуальной информации в интренете не будет, только копипаст пятилетней давности, что и сейчас встречается....

baf762

23:24 28 May 2020

Упрощаю понимание статьи, чтобы не париться кучей умных слов.
Яндекс постоянно врет.
Пытается зарабатывать деньги на всем, чем можно.
Выдача забита откровенным шлаком.
Директ на три четверти мошенничеством :) .

plumber.vladimir

02:33 29 May 2020

Я с рождения сайта https://kolatelegraf.ru прописываю в его тайтле и дискрипшине суть страницы и номер телефона (услуги - строительство, ремонт). Это инфу браузер, как правило использует для формирования сниппета и описания в поиске. Поэтому клиент сразу видит мой телефон и может даже не заходить гна сайт. С информационными сайта так, конечно, не прокатит в сниппете не пропишешь, как побелить потолок своими руками.

05:24 30 May 2020

Микроразметку не пробовали?

sergius72

04:51 29 May 2020

Да все проще, народ. Расслабьтесь. Никакого алгоритма ПРОСТО НЕТ. Ради прикола месяц не трогал НИЧЕГО на одном из своих сайтов. И яндекс ежедневно радостно мне сообщал то от том что все ОК. То о том что редирект пошел. То опять все в ажуре. То страничка недостаточно качественная. То опять все здорово. То вот проблемы для мобильных. То опять все хорошо. И так далее, и так далее. повторяю - на сайте НИЧЕГО НЕ МЕНЯЛОСЬ! Анекдот про официанта, который для клиента НЕСУЩЕСТВУЮЩИЙ кондиционер то включал, то выключал, знаете? вот что-то вроде!
А на самом деле все честно. Кто больше заплатил, тот и в топе. Бывает конечно и исключения. Бывает и действительно хороший контент, не спорю. но только там где не ВЫПОЛНЯЮТ "СОВЕТЫ ПО РАСКРУТКЕ" от яндекса. Когда САМ мастер пишет нормальным языком о чем сайт и что именно на данной странице можно найти, у5казав это в титле и дескрипшене. А так... У лично меня что с колдунами, что без них одинаково идет. так что очередной яндекс развод на красивые пупер-современные и супернаучные термины... )))
В то же время гугл не смотрит на красивости. есть смысл и соответствие описания содержанию? Добро пожаловать вперед. Нет? добро пожаловать в аутсайдеры. Вот и все.
Кстати, недавно порадовало. Искал где скачать копию лицензионного диска Window XP. Так Яша в одном из первых же предложений выдал "Хотите БЕСПЛАТНОГО СЕКСА?" )))))

skyminov

09:36 29 May 2020

Для примера, у меня к странице https://www.prof-sovet.ru/forma-dlya-dorozhki-na-dache/ Гугл в сниппете выдает description, а вот Яша показывает первые абзацы статьи.
Так что пока лучше все прописывать. А вот подход Яндекса нужно научиться использовать под себя

ads

19:16 14 марта 2022

а у меня на сайте почти не когда не вылетает в поиске, хотя и прописан. В выдаче вижу разные абзацы (как понимаю по частоте ключей определяет), при этом не всегда корректно, и один и тот же запрос по разному изо дня в день. :(((..

servir007

11:28 29 May 2020

Всегда анализирую топов и каждый раз удивляюсь, когда в топе находится как правило не сильно возрастной домен или нет ключевиков и дескрипшн. Даже тайтл не соответствовал никоим образом с запросом. Хотя на моем продвигаемом сайте все это указано максимально точно, текст без переспама. Но результат, мой сайт на 2-3 странице, а в топе сайт без логики. Как он туда попадает? может только накруткой? Но нахера тогда нужен этот BERT или Fact Snippet 2.0?

13:46 31 May 2020

Вот и я о том же. Причем попробуйте такой момент. Вбейте все ваши ключевики из запроса, но укажите плюсиками обязательное наличие каждого из них. сильно удивитесь, но ваш сайт будет в первой если не пятерке то десятке. Просто Яндекс теперь ищет не то что вы точно просили, а то что , как ему кажется вы хотели. Помните у Задорнова диалог:
- почему салат с майонезом?! Я просил БЕЗ МАЙОНЕЗА!
-А так вкуснее!
вот и Яндекс поступает так же решая за вас по вашим пошлым вариантам запросов, что же вы хотите. И - да, только либо накруткой, либо реклама, либо директ. Причем кто больше платит, тот и впереди. В общем, скурвился Яндекс. А жаль, хороший поисковик был

nev

12:43 29 May 2020

Возможно, пришло время задуматься над тем как запретить или как прятать контент от поиска.
Если юридически и технически это возможно, то тогда появляется хоть какой-то смысл в продвижении за счёт качественного контента. Хотя уже не через поисковые запросы, а через сообщества экспертов.