Искусственный интеллект в поиске Яндекса

Новый алгоритм Яндекса "Палех"

В чем заключается суть алгоритма «Палех»?

Официально алгоритм «Палех» был представлен Яндексом 2 ноября 2016 года.

Традиционно все ключевые запросы были разделены на 3 большие группы: высокочастотные (ВС), среднечастотные (СЧ), низкочастотные (НЧ), думаю не для кого это не новость. Как же работали алгоритмы ранее с этими группами? Пользователь набирал интересующий его запрос, «робот» искал текстовое соответствие в базе данных и предлагал пользователю варианты ответов, которые ранжировались по определенным параметрам.

Теперь благодаря новому алгоритму «робот» будет стараться понимать суть вопроса, который задал пользователь, а не только искать текстовое соответствие, то есть слова из вопроса могут вообще не совпадать со словами из ответа.

Например: пользователь вводит запрос «фильм где человек остался один на другой планете», ответ «Марсианин смотреть онлайн»

Как такое стало возможно?

Такая возможность появилась благодаря искусственным нейронным сетям (ИНС) — по простому, это специальный метод программирования, в котором машина может самообучаться.

Работает этот метод, как нейронные сети головного мозга, принимает запрос, обрабатывает тонну информации, пытается понять суть вопроса и выдает ответ.

Пользователи в среднем набирают 280 млн запросов в день в поиске Яндекса, машина анализирует эти запросы, обучается, а затем выдает пользователю максимально релевантный ответ. Алгоритм берет из поиска «заголовок» и «запрос», переводит их в трехсотмерное пространство (каждому соответствует 300 чисел), выставляет их на параллели и максимально подходящие по «координатам» ответы выдает пользователю. Можно себе представить график в трехсотмерном пространстве, в котором «робот» расставляет точки.

Как бы это выглядело на графике

Как бы это выглядело на графике

Почему «Палех» и Жар-Птица?

Все просто, Яндекс взял за название город Палех, который находится в ивановской области, а на гербе Палеха изображена жар-птица, которая характеризует алгоритм следующим образом:

* Клюв это ВЧ запросы
* Туловище это СЧ запросы
* Хвост это НЧ запросы

Поэтому «длинный хвост» это большое количеств НЧ запросов (порядка 40% от всех запросов)

Жар-Птица в новом алгоритме Яндекса - "Палех"

Жар-Птица в новом алгоритме Яндекса — «Палех»

Откуда взялась идея?

В далеком 2004 г. редактор журнала Wired, Крис Андерсон, был озадачен вопросом, какие товары приносят больше прибыли, те которые находятся в ТОПе или те которые вышли из него (вопрос относился ко всем товарам на рынке)
Именно по этому он проводил бесчисленные исследования и вывел термин «Длинный хвост», который был подробно описан в его книге «Длинный хвост. Новая модель ведения бизнеса»
Оказалось что и те и другие товары приносят примерно одинаково, только топовые товары приносят прибыль большую и недолго, а которые вышли из топа наоборот, небольшую прибыль, но более длительный промежуток времени.
В итоге за короткий срок Топовый товар принесет столько же, сколько не топовый за весь период до снятия с продажи.
Такая методология применима ко многим сферам, в том числе интернету, потому что НЧ ключи из «длинного хвоста» приносят почти половину трафика в интернете.

"Длинный хвост" Криса Андерсона

«Длинный хвост» Криса Андерсона

Какие следуют выводы?

Сейчас важен будет не максимально «переспамленный» текст, а хорошо написанный, полезный контент, потому что текстовое соответствие не главное. У хороших ресурсов после запуска алгоритма добавится трафика по НЧ запросам, в то время как у «черных» сео статей он просядет. В общем алгоритм хорош и очень полезен, особенно для начинающих ресурсов, которые не могут тягаться с трастовыми сайтами за тяжелые ВЧ запросы.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *