Машинное обучение улучшило "Яндекс"
Машинное обучение улучшило "Яндекс"
Автор: Андрей Письменный
Опубликовано 06 апреля 2010 года
"В прошлом году у нас произошёл сильный прорыв в качестве поиска", - сообщил генеральный директор компании "Яндекс" Аркадий Волож на недавней пресс-конференции, посвящённой технологии MatrixNet. Новый алгоритм ранжирования помогает "Яндексу" выдавать более точные результаты в ответ на поисковые запросы. Его позитивное влияние отразилось и на популярности поисковика.
Новая технология работает в последней версии поисковика, носящей кодовое название "Снежинск", с ноября 2009 года. "Если версия улучшает качество на 1%, она выкладывается в продакшн. Большие релизы с названиями - это 1-2 процента качества. А со "Снежинском" нам удалось выиграть пять процентов," - говорит Волож. По его словам, успех "Матрикснета" настолько заметен, что им заинтересовались другие крупные поисковики (Волож дипломатично назвал их "конкурирующими компаниями из Калифорнии").
Необычность "Матрикснета" заключается в том, что алгоритм при оценке страницы учитывает не десятки или сотни факторов, а чуть ли не тысячи. Причём он устойчив к "переобучаемости" (то есть менее склонен случайно принимать за важные параметры что-нибудь явно бессмысленное, чем предшественники) и достаточно быстр.
Собственно говоря, в скорости работы и кроется главное преимущество "Матрикснета". Сравнимые по другим показателям методы машинного обучения существовали и раньше, но из-за недостаточной скорости они не годились для поисковой машины. В "Яндексе" придумали, как оптимизировать алгоритм.
Объяснить принцип работы "Матрикснета" простыми словами не так легко. Сотрудники "Яндекса" хоть и берутся это делать, но в результате примеры оказываются расплывчатыми. Видимо, математика, использующаяся в машинном обучении, плохо приспособлена для изложения на примерах с яблоками. Но в целом преимущество нового алгоритма кажется вполне понятным: чем длиннее и сложнее формула ранжирования, тем точнее поиск. "Матрикснет" умеет оперировать десятками тысяч коэффициентов.
"Матрикснет" решает и ещё одну проблему, стоящую перед создателями поисковиков. Обычно любое изменение в алгоритме влияет на все результаты. "Матрикснет" же можно настраивать по-разному для разных групп запросов.
"Представьте, что у нас есть телескоп, мощность которого выросла в десять раз - объясняет Волож. - Что с ним делать? Можно получать результаты там, где не хватало точности измерения. К примеру, по редким запросам". Раньше поисковик мог формировать уникальную выдачу для жителей разных регионов, а теперь при ранжировании результатов может учесть, что пользователь живёт в конкретном городе.
По словам Воложа, улучшение результатов заметно не только по метрикам, но и напрямую влияет на посещаемость. Последние полтора года доля "Яндекса" неумолимо снижалась, достигнув 60 процентов в позапрошлом году. С появлением "Матрикснета" она снова пустилась в рост и уже достигла 62 процентов.
Примечательно, что придумана новая технология была в одночасье: "главный прорыв был сделан за 10 минут в конце 2008 года" – рассказывает Волож. Остальное время было потрачено на доработку "Матрикснета".
Новым алгоритмом, естественно, сразу же заинтересовались поисковые оптимизаторы – каждая новая версия поисковика всегда приводит к большой шумихе в их кругах. Оно и понятно – выведенные на верхние места результаты начинают внезапно менять позиции, "купленные" ссылки перестают работать, и приходится в срочном порядке искать новые трюки.
Оптимизаторы скрупулёзно изучают новый алгоритм, пытаясь найти закономерности его работы, чтобы затем их эксплуатировать. SEO отмечают, что "Матрикснет" куда благосклоннее к старым сайтам чем к новым, то же самое относится и к ссылкам – старые ссылки ценятся больше новых.
Сайт anokalintik.ru, к примеру, призывает оптимизаторов ответственнее относиться к подготовке содержимого сайта. Прислушайся SEO к такому мнению, можно было бы говорить об особенной пользе "Матрикснета". Многие, впрочем, по-прежнему заняты своими делами: прикидывают формулы ранжирования или ругают новые правила геотаргетинга ("Снежинск" чаще показывает в регионах столичные результаты чем это делала прошлая версия).
Улучшение качества поиска, благоприятное влияние на оптимизаторов, повышение посещаемости – казалось бы, что может быть лучше? Опасаться можно лишь конкурентов – Аркадий Волож не отрицает, что и они вскоре введут похожие алгоритмы. Но как бы серьёзно ни были настроены конкурирующие поисковики, "Яндекс" так просто не напугать. Мантра технического директора компании Ильи Сегаловича "пока работаем, мы непобедимы" тут как нельзя более к месту.