Баден-Баден: «Старайтесь говорить человеческим языком»
Баден-Баден: «Старайтесь говорить человеческим языком»
Август 2, 2017
Голосовой поиск и SEO
Август 2, 2017

Алгоритм «Палех»: счастье – это когда тебя понимают

Поисковая система Яндекс запустила современный проект, который основан на совершенно новом варианте поиска. Теперь система, не только «понимает», какую информацию пользователь хочет найти, но и то, что он имеет в виду.

Данный алгоритм создавался по причине конкуренции с поисковой системой Google. Каждый посетитель интернет-ресурса знает, что до недавнего времени Гугл намного лучше обрабатывал запросы пользователей. Система «Палех» повышает уровень обработки поиска на нестандартную тематику почти на 35 процентов.

 

Прикладная орнитология

На сегодняшний день система Яндекс является наиболее популярным гигантом, которая отвечает множеству запросов пользователей (около 280 миллионов). Многие из запросов вводятся ежедневно большое количество раз. К ним относится: «вконтакте» или «скачать бесплатно». Некоторая тематика запросов может быть  достаточно эксклюзивной и нестандартной. Их количество достигает до ста миллионов за сутки.

Специалисты поисковой системы Яндекса составили график, который показывает уровень частоты выдачи запросов. Его внешний вид напоминает сказочную и красивую птицу, которая имеет туловище, клюв и пестрый хвост. Заостренный клюв показывает самые популярные и известные запросы. В массивном туловище располагаются среднестатистические запросы. В роли пышного хвоста можно увидеть нестандартные и редко встречающиеся темы, которые ищут пользователи.

Современный поисковой алгоритм позволяет обрабатывать нестандартные запросы на самом высоком уровне. Разработчики обратили внимание на то, что сказочный пернатый очень похож на Жар-птицу. Именно по этой причине алгоритм приобрел название – «Палех».

 

Откуда появляются нестандартные запросы?

Запросы с низкой частотой отличаются множеством разных категорий. Их довольно трудно систематизировать.

К примеру, существуют следующие виды необычных запросов:

  1. Детская тематика. Многие дети в младшем школьном возрасте принимают компьютер за живое существо. Поэтому в поисковой системе они пишут: Любимый Яндекс, ответь,пожалуйста, какиеестьсмешныеигрысфиксикаминателефончик.
  2. Тематика эпизода. Некоторые люди не могут вспомнить название песни или кинофильма. К примеру, «фильм о людях, которыевырастиликартошкунадругойпланете» или «фильм о двух братьях, которые играли в баскетбол на льду».

Данные запросы для поисковой системы являются достаточно сложными. Новый алгоритм поиска позволяет пользователям перейти на те сайты, которые чаще всего посещались. Здесь также большое влияние имеет поведение пользователей страницы. Если пользователь остался на странице длительное время, значит, ресурс имеет высокий уровень соответствия запросу. В другом случае у Яндекса просто не получается определить, насколько та или иная ссылка будет соответствовать необходимой тематике.

Данная задача также достаточно сложная тем, что необходимые слова обязательно должны быть на странице с высоким уровнем релевантности. Для поиска одинаковой информации каждый посетитель интернета может использовать совершенно разные слова и выражения.

Оригинальные запросы, которые располагаются в хвосте пернатого, почти никогда не совпадают. Каждый человек формулирует мысль по-разному, хотя ищут они одну и ту же информацию. Для решения данной проблемы специалисты Яндекса решили использовать нейронные сети.

 

Векторная семантика

На сегодняшний день искусственная нейронная сеть (ИНС) считается самым результативным способом автоматического обучения. Одним из самых распространенных примеров нейронной связи является анализ картинки, звука или текста.

Машинный интеллект можно научить распознавать деревья или животных, к примеру, в графике. Для такого обучения используется большое количество изображений и картинок, которые содержат необходимые объекты (для положительного примера) и видео (для отрицательного примера). В результате такой работы нейронная сеть способна распознавать нужные объекты на представленных картинках.

Работа поисковой системы основана на тексте. Чаще всего пользователь вводит текстовую информацию в строке поиска. Каждая страница всегда имеет заголовок. Но это не влияет на принцип обучения: «минус» и «плюс». Любой пример в сети построен по принципу «запрос-заголовок». Подбор примера основывается на статистике, которая накапливается поиском. В соответствии с запросом пользователя интернет-ресурса, нейронная сеть учится «понимать», подходит ли определенная тематика запроса к странице.

Работоспособность каждого компьютера заключается в обработке данных (числовых). Разработчики алгоритма «Палех» старались свести соответствие между заголовком и запросом к анализу числовых значений. Специалисты приспособили систему к тому, что она переводит распространенные запросы в определенный формат – группа из 300 чисел. Теперь каждый документ базы данных имеет трехсотмерную систему координат. Когда пользователь вводит информацию, нейронная сеть ищет наиболее релевантный вариант, который содержит всю необходимую информацию.

Данные метод обработки носит название «семантического вектора». Он предоставляет возможность находить нужную информацию даже по запросу, который имеет низкие частоты. Также важным фактором считается то, что пользователю ресурса необязательно вводить ключевые слова.

 

Большие планы

На сегодня семантический вектор используется только несколько месяцев. Но он применяется не только в текстовых запросах, но и в картинках. При поиске изображений, выдаются только те запросы, которые точно могут определить текстовую семантику.

Такая технология открывает большие возможности. Семантический вектор позволяет перевести не только заголовок, но и полностью страницу. Такая функция создает модель, которая оценивает запрос на уровне человеческого интеллекта.

На сегодняшний день данная система находится в самом начале развития. Нейронная сеть отличается хорошим потенциалом для повышения уровня ранжирования. Специалисты могут полностью определить главные направления, которые необходимо развивать в первую очередь. Чтобы достигнуть цели, нужно будет пройти большой путь и решить множество проблем. Но разработчики Яндекс обещают в скором времени ввести современную технологию, которая позволит понимать человека на высоком уровне.