Ознакомьтесь с нашей политикой обработки персональных данных
  • ↓
  • ↑
  • ⇑
 
Записи с темой: как это работает? (список заголовков)
13:34 

Как это работает? Рекомендации в Яндекс.Музыке

Все люди, вне зависимости от того, какую музыку они любят и сколько часов в день проводят в наушниках, иногда сталкиваются с одной и той же проблемой: личная фонотека заслушана до дыр и хочется чего-нибудь новенького. С одной стороны, выбор огромен — музыкальные каталоги в интернете насчитывают десятки миллионов треков и пополняются каждый день. С другой стороны, сориентироваться в этом разнообразии бывает непросто: музыки много, а вы один.



С сентября 2014 года в Яндекс.Музыке работает система музыкальных рекомендаций. Она даёт ответы на вопрос «Что бы ещё послушать?». У системы есть две ключевые особенности. Во-первых, её советы персональны — то есть составляются с учётом интересов каждого конкретного пользователя. А во-вторых, система самообучается: чем больше вы слушаете музыку, тем точнее будут рекомендации.



Как выявляются предпочтения

Прежде чем советовать пользователю ту или иную музыку, необходимо составить представление о его музыкальных вкусах. Самый простой способ сделать это — посмотреть, какие треки на Яндекс.Музыке он уже послушал. Это самая важная информация для рекомендательной системы; по истории прослушиваний можно установить, каких исполнителей и какие жанры человек предпочитает. Однако чтобы составить более полную картину, неплохо ещё понимать, что ему нравится больше, а что — меньше.



Для этого мы используем дополнительные данные. Один из источников таких данных — оценки «Нравится» и «Не нравится», которые ставят пользователи. Оценку «Нравится» в Яндекс.Музыке можно ставить трекам, альбомам, исполнителям и целым музыкальным жанрам. Оценка «Не нравится» есть в жанровом радио и в радио по исполнителю: с её помощью можно отметить треки, которые пришлись не по душе.



Как правило, люди оценивают музыку, которая вызвала у них сильный эмоциональный отклик — неважно, положительный или отрицательный. Поэтому оценки довольно точно отражают пристрастия человека. Но одних оценок недостаточно: во-первых, люди ставят их далеко не всегда, а во-вторых, в шкале не хватает полутонов — есть только или «хорошо» («Нравится»), или «плохо» («Не нравится»).



Поэтому, помимо оценок и прослушиваний, мы обращаем внимание и на другие действия пользователя: пропуски треков (например, в альбоме, подборке или радио) и добавления треков в плейлисты.





Все действия мы разделяем на положительные и отрицательные. Положительные — прослушивание, оценка «Нравится», добавление в плейлист — говорят о том, что музыка нравится пользователю, а отрицательные — пропуск и оценка «Не нравится» — наоборот. Важно понимать, что действия неравнозначны: например, пользователь может пропустить трек, который в целом ему по душе, но сейчас не подходит под настроение. Поэтому каждому действию мы присваиваем вес: у оценки «Нравится» он максимальный, а у пропуска — минимальный.



Как строится прогноз

Алгоритм анализирует профиль пользователя (то есть данные о его музыкальных предпочтениях) и предсказывает, какие треки и исполнители могут ему понравиться. Кроме того, алгоритм умеет дообучаться в режиме реального времени. Каждый раз, когда вы совершаете новое действие — слушаете трек или добавляете его в плейлист, — профиль обновляется, и прогноз строится заново. Это позволяет быстро подстраиваться под вкусы и предлагать музыку, которая отвечает сегодняшнему настроению.



Делая прогноз, алгоритм также учитывает информацию о том, как связаны друг с другом объекты из каталога Яндекс.Музыки: треки, альбомы, исполнители, жанры. Благодаря этим данным можно советовать человеку новых исполнителей в его любимом жанре. Кроме того, система сравнивает профили всех пользователей Яндекс.Музыки. Это делается для того, чтобы выявить людей со схожими музыкальными предпочтениями: то, что нравится одному, может понравиться и другому.





Как составляются рекомендации

Обработав данные, алгоритм выдаёт список треков и исполнителей, которые могут понравиться пользователю. Считать его окончательной рекомендацией, однако, нельзя. Во-первых, список слишком длинный — чтобы прослушать все треки, которые система выбрала за раз, не хватит и суток. Во-вторых, мы считаем, что рекомендации должны быть разнообразными: они должны включать в себя не только советы вида «раз вам понравилось X, послушайте Y», но и что-то ещё, что помогло бы сориентироваться в мире музыки — скажем, сообщения о новых релизах любимых исполнителей или чарты треков в жанрах, которые вам нравятся.



Поэтому прогноз, построенный алгоритмом на основе профиля пользователя, мы «разбавляем» информацией из других источников. Это могут быть сведения о том, что слушают друзья из социальных сетей, актуальные подборки — саундтрек к только что вышедшему фильму или сборник композиций, прозвучавших на недавнем музыкальном фестивале, — или списки треков, которые рекомендуют любимые исполнители.





Окончательный список рекомендаций составляется с помощью Матрикснета — разработанного в Яндексе метода машинного обучения. Матрикснет обрабатывает список всех возможных рекомендаций — как полученных прогнозированием, так и составленных по другим источникам — и определяет, какие именно следует показать пользователю на главной странице Яндекс.Музыки и в каком порядке их расположить. Формула, по которой составляется лента рекомендаций, учитывает множество факторов — от сведений о том, сколько раз человек прослушал тот или иной трек, до времени суток: бывает так, что утром нравится одна музыка, а вечером — другая.



***

Задача рекомендаций в Яндекс.Музыке — помогать людям открывать для себя новую музыку. Новую не значит современную — система может посоветовать вам и треки, выпущенные в этом году, и музыку, написанную в XVIII веке. Главное — это будет музыка, которую вы ещё не слышали, но которая вам, скорее всего, понравится..


@темы: как это работает?, Музыка, ya.ru:text, ya.ru:author:5105614

13:34 

Как это работает? Рекомендации в Яндекс.Музыке

Все люди, вне зависимости от того, какую музыку они любят и сколько часов в день проводят в наушниках, иногда сталкиваются с одной и той же проблемой: личная фонотека заслушана до дыр и хочется чего-нибудь новенького. С одной стороны, выбор огромен — музыкальные каталоги в интернете насчитывают десятки миллионов треков и пополняются каждый день. С другой стороны, сориентироваться в этом разнообразии бывает непросто: музыки много, а вы один.



С сентября 2014 года в Яндекс.Музыке работает система музыкальных рекомендаций. Она даёт ответы на вопрос «Что бы ещё послушать?». У системы есть две ключевые особенности. Во-первых, её советы персональны — то есть составляются с учётом интересов каждого конкретного пользователя. А во-вторых, система самообучается: чем больше вы слушаете музыку, тем точнее будут рекомендации.



Как выявляются предпочтения

Прежде чем советовать пользователю ту или иную музыку, необходимо составить представление о его музыкальных вкусах. Самый простой способ сделать это — посмотреть, какие треки на Яндекс.Музыке он уже послушал. Это самая важная информация для рекомендательной системы; по истории прослушиваний можно установить, каких исполнителей и какие жанры человек предпочитает. Однако чтобы составить более полную картину, неплохо ещё понимать, что ему нравится больше, а что — меньше.



Для этого мы используем дополнительные данные. Один из источников таких данных — оценки «Нравится» и «Не нравится», которые ставят пользователи. Оценку «Нравится» в Яндекс.Музыке можно ставить трекам, альбомам, исполнителям и целым музыкальным жанрам. Оценка «Не нравится» есть в жанровом радио и в радио по исполнителю: с её помощью можно отметить треки, которые пришлись не по душе.



Как правило, люди оценивают музыку, которая вызвала у них сильный эмоциональный отклик — неважно, положительный или отрицательный. Поэтому оценки довольно точно отражают пристрастия человека. Но одних оценок недостаточно: во-первых, люди ставят их далеко не всегда, а во-вторых, в шкале не хватает полутонов — есть только или «хорошо» («Нравится»), или «плохо» («Не нравится»).



Поэтому, помимо оценок и прослушиваний, мы обращаем внимание и на другие действия пользователя: пропуски треков (например, в альбоме, подборке или радио) и добавления треков в плейлисты.





Все действия мы разделяем на положительные и отрицательные. Положительные — прослушивание, оценка «Нравится», добавление в плейлист — говорят о том, что музыка нравится пользователю, а отрицательные — пропуск и оценка «Не нравится» — наоборот. Важно понимать, что действия неравнозначны: например, пользователь может пропустить трек, который в целом ему по душе, но сейчас не подходит под настроение. Поэтому каждому действию мы присваиваем вес: у оценки «Нравится» он максимальный, а у пропуска — минимальный.



Как строится прогноз

Алгоритм анализирует профиль пользователя (то есть данные о его музыкальных предпочтениях) и предсказывает, какие треки и исполнители могут ему понравиться. Кроме того, алгоритм умеет дообучаться в режиме реального времени. Каждый раз, когда вы совершаете новое действие — слушаете трек или добавляете его в плейлист, — профиль обновляется, и прогноз строится заново. Это позволяет быстро подстраиваться под вкусы и предлагать музыку, которая отвечает сегодняшнему настроению.



Делая прогноз, алгоритм также учитывает информацию о том, как связаны друг с другом объекты из каталога Яндекс.Музыки: треки, альбомы, исполнители, жанры. Благодаря этим данным можно советовать человеку новых исполнителей в его любимом жанре. Кроме того, система сравнивает профили всех пользователей Яндекс.Музыки. Это делается для того, чтобы выявить людей со схожими музыкальными предпочтениями: то, что нравится одному, может понравиться и другому.





Как составляются рекомендации

Обработав данные, алгоритм выдаёт список треков и исполнителей, которые могут понравиться пользователю. Считать его окончательной рекомендацией, однако, нельзя. Во-первых, список слишком длинный — чтобы прослушать все треки, которые система выбрала за раз, не хватит и суток. Во-вторых, мы считаем, что рекомендации должны быть разнообразными: они должны включать в себя не только советы вида «раз вам понравилось X, послушайте Y», но и что-то ещё, что помогло бы сориентироваться в мире музыки — скажем, сообщения о новых релизах любимых исполнителей или чарты треков в жанрах, которые вам нравятся.



Поэтому прогноз, построенный алгоритмом на основе профиля пользователя, мы «разбавляем» информацией из других источников. Это могут быть сведения о том, что слушают друзья из социальных сетей, актуальные подборки — саундтрек к только что вышедшему фильму или сборник композиций, прозвучавших на недавнем музыкальном фестивале, — или списки треков, которые рекомендуют любимые исполнители.





Окончательный список рекомендаций составляется с помощью Матрикснета — разработанного в Яндексе метода машинного обучения. Матрикснет обрабатывает список всех возможных рекомендаций — как полученных прогнозированием, так и составленных по другим источникам — и определяет, какие именно следует показать пользователю на главной странице Яндекс.Музыки и в каком порядке их расположить. Формула, по которой составляется лента рекомендаций, учитывает множество факторов — от сведений о том, сколько раз человек прослушал тот или иной трек, до времени суток: бывает так, что утром нравится одна музыка, а вечером — другая.



***

Задача рекомендаций в Яндекс.Музыке — помогать людям открывать для себя новую музыку. Новую не значит современную — система может посоветовать вам и треки, выпущенные в этом году, и музыку, написанную в XVIII веке. Главное — это будет музыка, которую вы ещё не слышали, но которая вам, скорее всего, понравится..


@темы: как это работает?, Музыка, ya.ru:text, ya.ru:author:5105614

12:37 

Как это работает? Яндекс.Пробки

В конце 2014 года московские пробки взяли новую высоту: 25 декабря десятибалльная загруженность дорог продержалась почти 12 часов. В этот день многие водители добрались домой за полночь, а пробки на карте Москвы выглядели примерно так:





Несмотря на этот рекорд — точнее, антирекорд — в целом ситуация на дорогах Москвы за год улучшилась. Как показало наше недавнее исследование о столичных пробках, время проезда по улицам Москвы в часы пик осенью прошлого года сократилось примерно на пять процентов по сравнению с 2013 годом.



В основе исследования лежат данные Яндекс.Пробок — сервиса, который показывает людям картину загруженности дорог. Пробки получают данные о движении машин, анализируют их и отображают ситуацию на Яндекс.Картах. Аналитик Яндекс.Пробок Леонид Медников рассказал, откуда сервис получает информацию, как она помогает оценить ситуацию на дорогах и почему эта задача не имеет идеального решения.





Как устроены другие технологии Яндекса, читайте в блоге по метке «как это работает?» и в разделе «Технологии» на нашем сайте..


@темы: как это работает?, Пробки, ya.ru:text, ya.ru:author:5105614

12:43 

Как устроены переводные словари Яндекса

Что важнее всего при изучении иностранного языка? Желание, свободное время, проверенный учебник, хороший преподаватель? Безусловно. А ещё — хороший словарь.

У многих из нас на полках стоят бумажные словари: старые и новые, общие и специализированные, многотомные и карманные. С ними, как и с любыми книгами, может быть связано множество воспоминаний: например, о школьных уроках немецкого или о первой поездке за рубеж. Но вряд ли кто-то поспорит с тем, что по удобству использования бумажные словари проигрывают электронным.

Работать с электронными словарями проще и быстрее, чем с бумажными: не нужно перелистывать страницы в поисках слова, можно не только прочитать перевод слова, но и услышать, как оно звучит, а пользоваться словарём можно на любом устройстве. На сервисе Яндекс.Словари представлены три вида электронных словарей: переводные, энциклопедические и словари русского языка: толковые, этимологические, орфографические, фразеологические, словари синонимов и так далее.

Если ввести в поисковую строку Словарей, например, слово [колибри], то словари русского языка дадут его краткое толкование, расскажут, откуда произошло слово, есть ли у него синонимы и на какой слог в нём ставить ударение. Из энциклопедических словарей можно узнать, как выглядит колибри, где обитает и чем питается. Переводные словари, об устройстве которых мы хотим рассказать, подскажут, как слово переводится на иностранные языки.


Сколько у нас словарей

Сейчас в коллекции сервиса Яндекс.Словари — 67 переводных словарей для десяти языков, включая казахский, турецкий и латынь. В нашем индексе есть как общие, так и специализированные словари: для юристов, биологов, врачей, авиаторов. Мы используем готовые электронные словари, а не составляем их самостоятельно: эта работа требует специальных навыков и знаний, и её выполняют ученые-лексикографы.

Как формируется словарная статья

Мы не знаем, какая именно задача стоит перед пользователем, заглянувшим в словарь. Возможно, он делает школьное задание по английскому языку, а может быть, переводит статью про плазмохимическое травление в микроэлектронике. Поэтому для каждого слова мы показываем все переводы из всех словарей, где оно нашлось. Само по себе это несложно, но без специальной обработки результатов пользователям придётся продираться через большое количество повторов. Перевод будет выглядеть примерно так:


Чтобы не дублировать информацию, мы научились разбирать словарные статьи на отдельные переводы и склеивать переводы по близости значений. Этим в переводных Яндекс.Словарях занимается специальный алгоритм.

Алгоритм извлекает из словарных статей данные — основные и вспомогательные. Основные — это заголовок и список переводов; иными словами, то, что составляет структуру статьи. К вспомогательным данным относятся часть речи, грамматические пометки, транскрипция, примеры употребления и тематика.

Дальше алгоритм, ориентируясь на основные (а при необходимости — и на вспомогательные) данные, распределяет переводы по частям речи, собирает близкие по значению переводы в одну строку и удаляет дубликаты. В результате получается такая статья:

Многие статьи проиллюстрированы примерами. Примеры мы тоже получаем из словарей, входящих в индекс. В словарях примеры часто даются списком в конце статьи, что не всегда удобно. Наш же алгоритм умеет распределять примеры по значениям – вот так:

По большому счету, переводные Яндекс.Словари – это один большой «мегасловарь», собранный по данным из разных источников. Лишняя информация (переводы-повторы) из него удалена, а нужная (примеры или синонимы) добавлена. Такой «мегасловарь» универсален: им могут пользоваться и профессиональные переводчики, и те, кто только-только приступил к изучению иностранного языка.

Помимо Словарей, у Яндекса есть еще один сервис для тех, кто имеет дело с иностранным языком, – это Перевод. Если Словари предназначены главным образом для тех, кто серьезно изучает язык, то автоматический переводчик может пригодиться, например, в зарубежной поездке или в случае, когда нужно примерно понять содержание текста на незнакомом языке.

.


@темы: как это работает?, Словари, ya.ru:text, ya.ru:author:24856902

14:16 

Как это работает? Поисковые подсказки

Когда вы начинаете вводить запрос в поисковой строке, Яндекс показывает варианты наиболее популярных запросов, начинающихся на те же самые буквы. Это поисковые подсказки — они помогают вам сэкономить время и не печатать запрос целиком. Яндекс понимает, какие подсказки показать, даже если вы забыли сменить раскладку клавиатуры или опечатались.

Подсказки появились в поиске Яндекса относительно недавно — в 2008 году. Сначала идея была в том, чтобы просто ускорить ввод поискового запроса. Чтобы вам не приходилось писать, скажем [метилпропенилендигидроксициннаменилакрилическая кислота что это] целиком. Со временем, однако, подсказки стали уметь гораздо больше. За этими возможностями стоит не одна сложная технология и постоянная работа. О них мы и хотим рассказать в этой записи.

Подготовка подсказок
Список поисковых подсказок формируется после фильтрации всего потока запросов к Яндексу. Также туда добавляются названия энциклопедических статей, музыкальных произведений и другого подходящего контента. Список проходит несколько фильтров, каждый из которых отсеивает некоторые типы запросов. Например, совсем редкие запросы или содержащие ненормативную лексику. Вместе с фильтрацией запросов в них исправляются опечатки. В итоге остаётся более сотни миллионов запросов — которые и становятся подсказками.

Как и ответы поиска на yandex.ru, поисковые подсказки зависят от того, где находится пользователь. Например, начиная запрос со слов [кинотеатр] или [ресторан], петербуржец и москвич наверняка имеют в виду заведения в своём городе. И подсказки им нужны для Санкт-Петербурга и Москвы соответственно. Поэтому для каждого региона составляется свой список поисковых подсказок, основанный на местных запросах.

Чтобы не тратить место на почти одинаковые запросы, мы их объединяем. Например, некоторые ищут [подарки на 8 марта], а некоторые — [подарки к 8 марта]. Такие запросы объединяют в одну подсказку, и, когда вы набираете «подарки», Яндекс показывает только один вариант — наиболее популярный. Конечно, если человек продолжит писать «подарки к», то набор подсказок изменится. К группировке запросов подходят очень аккуратно. Запросы, которые кажутся похожими машине, не всегда похожи для человека. Чтобы два запроса объединились в одну подсказку, они должны не только мало различаться по написанию, но и вести на одинаковые результаты поиска.

Актуальность и персонализация подсказок
Поскольку новые популярные запросы появляются постоянно, список поисковых подсказок регулярно обновляется — не реже, чем раз в день. А запросы, потерявшие актуальность, удаляются. Кроме того, у Яндекса есть специальный «быстрый» список подсказок — для запросов о событиях, которые произошли только что. Запросы для него отбираются по сложной формуле, которая учитывает, в том числе, насколько резко вырос поисковый интерес к теме, как много появилось новостных сообщений и постов в блогах. Быстрый список обновляется каждые полчаса.

Кроме того, Яндекс умеет определять, что будет больше интересовать людей в ближайшем будущем. Например, когда люди начинают писать в поиске «по», в обычной жизни им чаще всего нужна [погода], а перед 8 марта — [подарки] и [поздравления]. Поэтому Яндекс ежедневно обрабатывает все подсказки и для каждой строит прогноз — насколько она будет востребована на следующий день. Прогнозируемая востребованность учитывается при ранжировании списка подсказок.

В какой-то момент наши подсказки стали персональными. То есть научились учитывать не только ваш регион, но и историю запросов и меняться в соответствии с ней. Например, так выглядят подсказки и страница поисковой выдачи для двух людей с разной историей:


Эволюция подсказок
Если подсказки могут сократить ваш путь от ввода запроса до перехода к странице результатов поиска, то почему бы не пойти дальше? В некоторых случаях уже на этапе набора запроса можно с большой вероятностью сказать, что хорошим ответом будет определённый сайт. Тогда среди поисковых подсказок появится ещё и навигационная — адрес такого сайта. Например, уже по первым буквам запроса [википедия] первой подсказкой будет ru.wikipedia.org. При выборе навигационной подсказки пользователь сразу попадает на соответствующий сайт.

Этот пример показывает, что подсказки могут не только упрощать ввод запроса и адаптироваться под вас, но и решать ваши задачи. В том числе и без помощи поиска. Например, ответы на некоторые запросы можно получить прямо в подсказках. В основном это однозначные запросы, предполагающие один верный ответ — например, [столица Австралии] или [длина Дуная]. Наши подсказки знают десятки тысяч подобных фактов, и этот список регулярно пополняется. Помимо фактов, прямо в подсказках можно узнать текущий балл пробок на основных дорогах крупных городов, погоду в разных частях света и даже на других планетах, результаты недавних футбольных матчей или извлечь кубический корень из 1331.

Каждый день всем своим пользователям Яндекс показывает поисковые подсказки в сумме более миллиарда раз. А за время ввода одного запроса вы можете увидеть в среднем десять наборов подсказок.

.


@темы: ya.ru:author:5105614, ya.ru:text, Поиск, как это работает?, решение задач

13:55 

Как это работает? Компьютерное зрение

Способность видеть, то есть воспринимать информацию об окружающем мире с помощью органов зрения, — одно из важных свойств человека. Посмотрев на картинку, мы, почти не задумываясь, можем сказать, что на ней изображено. Мы различаем отдельные предметы: дом, дерево или гору. Мы понимаем, какой из предметов находится ближе к нам, а какой — дальше. Мы осознаём, что крыша домика — красная, а листья на дереве — зелёные. Наконец, мы можем с уверенностью заявить, что наша картинка — это пейзаж, а не портрет или натюрморт. Все эти выводы мы делаем за считанные секунды.

Пейзаж


Компьютеры справляются со многими задачами гораздо лучше, чем человек. Например, они гораздо быстрей считают. Однако такое, казалось бы, несложное задание, как найти на картинке дом или гору, может поставить машину в тупик. Почему так происходит?

Человек учится распознавать — то есть находить и отличать от других — объекты всю жизнь. Он видел дома, деревья и горы бессчётное количество раз: как в действительности, так и на картинах, фотографиях и в кино. Он помнит, как выглядят те или иные предметы в разных ракурсах и при разном освещении.

Машины создавались для того, чтобы работать с числами. Необходимость наделить их зрением возникла относительно недавно. Распознавание номерных знаков автомобилей, чтение штрихкодов на товарах в супермаркете, анализ записей с камер наблюдения, поиск лиц на фото, создание роботов, умеющих находить (и обходить) препятствия, — всё это задачи, которые требуют от компьютера способности «видеть» и интерпретировать увиденное. Набор методов, позволяющих обучить машину извлекать информацию из изображения — будь то картинка или видеозапись, — называется компьютерным зрением.

Как учится компьютер
Чтобы компьютер находил на изображениях, скажем, домики, нужно его этому научить. Для этого необходимо составить обучающую выборку. В нашем случае это будет коллекция картинок. Она, во-первых, должна быть достаточно большой (невозможно научить чему-то на двух-трёх примерах), во-вторых — репрезентативной (необходимо, чтобы она отражала природу данных, с которыми мы работаем), а в-третьих, должна содержать как положительные («на этой картинке есть домик»), так и отрицательные («на этой картинке нет домика») примеры.

Как учится компьютер


После того как мы составили выборку, в дело вступает машинное обучение. В ходе обучения компьютер анализирует изображения из выборки, определяет, какие признаки и комбинации признаков указывают на то, что на картинке — домик, и просчитывает их значимость. Если обучение прошло успешно (чтобы удостовериться в этом, проводятся проверки), то машина может применять полученные знания «на практике» — то есть находить домики на любых картинках.

Анализ изображения
Человеку ничего не стоит выделить на картинке важное и неважное. Компьютеру это сделать гораздо сложнее. В отличие от человека, он оперирует не образами, а числами. Для компьютера изображение — это набор пикселей, у каждого из которых есть своё значение яркости или цвета. Чтобы машина смогла получить представление о содержимом картинки, изображение обрабатывают с помощью специальных алгоритмов.

Сначала на картинке выявляют потенциально значимые места — то есть предполагаемые объекты или их границы. Это можно сделать несколькими способами. Рассмотрим, к примеру, алгоритм Difference of Gaussians (DoG, разность гауссиан). Он подразумевает, что исходную картинку несколько раз подвергают размытию по Гауссу, каждый раз используя разный радиус размытия. Затем результаты сравнивают друг с другом. Этот способ позволяет выявить на изображении наиболее контрастные фрагменты — к примеру, яркие пятна или изломы линий.

После того как значимые места найдены, их описывают в числах. Запись фрагмента картинки в числовом виде называется дескриптором. С помощью дескрипторов можно быстро, полно и точно сравнить фрагменты изображения, не используя сами фрагменты. Существуют разные алгоритмы получения дескрипторов — например, SIFT, SURF, HOG и многие другие.

Поскольку дескриптор — это числовое описание данных, то сравнение изображений — одна из важнейших задач в компьютерном зрении — сводится к сравнению чисел. Дескрипторы выражены довольно большими числами, поэтому их сравнение может требовать заметных вычислительных ресурсов. Чтобы ускорить вычисления, дескрипторы распределяют по группам, или кластерам. В один и тот же кластер попадают похожие дескрипторы с разных изображений. Операция распределения дескрипторов по кластерам называется кластеризацией.

После кластеризации данный дескриптор изображения сам по себе можно не рассматривать; важным становится лишь номер кластера с дескрипторами, наиболее похожими на данный. Переход от дескриптора к номеру кластера называется квантованием, а сам номер кластера — квантованным дескриптором. Квантование существенно сокращает объём данных, которые нужно обработать компьютеру.

Опираясь на квантованные дескрипторы, компьютер выполняет такие задачи, как распознавание объектов и сравнение изображений. В случае с распознаванием квантованные дескрипторы используются для обучения классификатора — алгоритма, который отделяет изображения «с домиком» от изображений «без домика». В случае со сравнением картинок компьютер сопоставляет наборы квантованных дескрипторов с разных изображений и делает вывод о том, насколько похожи эти изображения или их отдельные фрагменты. Такое сравнение лежит в основе поиска дубликатов и поиска по загруженной картинке.

Это лишь один подход к анализу изображения, поясняющий, как компьютер «видит» предметы. Существуют и другие подходы. Так, для распознавания изображений всё чаще применяются нейронные сети. Они позволяют выводить важные для классификации признаки изображения непосредственно в процессе обучения. Свои методы работы с изображением используются и в узких, специфических областях — например, при чтении штрихкодов.

Где используется компьютерное зрение
В умении распознавать человек, однако, пока оставляет компьютер далеко позади. Машина преуспела лишь в определённых задачах — например, в распознавании номеров или машинописного текста. Успешно распознавать разнородные объекты и произвольные сцены (разумеется, в условиях реальной жизни, а не лаборатории) компьютеру всё ещё очень трудно. Поэтому когда мы вводим в поисковую строку в Яндекс.Картинках слова «карбюратор» или «танцующие дети», система анализирует не сами изображения, а преимущественно текст, который их сопровождает.
Тем не менее, в ряде случаев компьютерное зрение может выступать серьёзным подспорьем. Один из таких случаев — это работа с лицами. Рассмотрим две связанные друг с другом, но разные по смыслу задачи: детектирование и распознавание.

Детектирование и распознавание


Часто бывает достаточно просто найти (то есть детектировать) лицо на фотографии, не определяя, кому оно принадлежит. Так работает фильтр «Лица» в Яндекс.Картинках. Например, по запросу [формула-1] будут найдены главным образом фотографии гоночных болидов. Если же уточнить, что нас интересуют лица, Яндекс.Картинки покажут фотографии гонщиков.

В иных ситуациях нужно не только отыскать лицо, но и узнать по нему человека («Это — Вася»). Такая функция есть в Яндекс.Фотках (скоро она станет доступна и в новом интерфейсе Фоток). При распознавании система берёт за образец уже размеченные фотографии с человеком, поэтому область поиска сильно сужается. Имея десять фотографий, на которых уже отмечен Вася, узнать его на одиннадцатом снимке будет несложно. Если Вася не хочет, чтобы его знали в лицо, он может запретить отмечать себя на фото.

Одна из самых перспективных сфер применения компьютерного зрения — дополненная реальность. Так называют технологию, которая предусматривает наложение виртуальных элементов (например, текстовых подсказок) на картину реального мира. Примером могут быть, например, мобильные приложения, которые позволяют получить информацию о доме, направив на него камеру телефона или планшета. Дополненная реальность уже применяется в программах, сервисах и устройствах, но пока находится только в начале пути.

.


@темы: ya.ru:author:5105614, ya.ru:text, как это работает?

14:19 

Как устроены Яндекс.Новости

Яндекс.Новости — крупнейший в рунете агрегатор новостных сообщений. Каждый день этот сервис получает материалы от нескольких тысяч СМИ и автоматически формирует из них новостную картину дня. Это очень сложная задача: нужно структурировать огромное количество информации, выделить самое важное и предоставить результат читателям в понятном виде. Нас часто спрашивают, как работают Яндекс.Новости, и в этой публикации мы постараемся ответить на ваши вопросы. А если что-то забудем — спрашивайте в комментариях.

Главная и определяющая особенность Яндекс.Новостей — отсутствие человеческого вмешательства. У нас нет редакторов и модераторов. Мы не пишем собственных материалов, у нас нет «редакционной политики» и своей точки зрения. Мы не СМИ. Все новости мы получаем от партнёров. Их материалы Новости не публикуют у себя целиком, а используют только фрагменты сообщений и заголовки. На сегодняшний день у Яндекс.Новостей около 6000 партнёров. В среднем они выпускают более 110 тысяч сообщений в будний день.

Количество сообщений Яндекс.Новостей по месяцам в 2013 году


Всё, что вы видите на страницах Яндекс.Новостей, — это результат работы алгоритмов. Они должны показать читателю полную и беспристрастную картину дня, сложить её из тысяч новостных сообщений. Яндекс.Новости являются входной точкой в медиапространство. Их задача — донести до вас всё, о чём пишут СМИ, говорят по радио и по телевизору. Что читать и где — вы решаете сами.

Для удобства читателей алгоритмы Яндекс.Новостей объединяют сообщения разных СМИ об одном и том же событии в сюжеты. За каждым заголовком на главной странице Новостей находится сюжет. Кроме собственно сообщений сюжет содержит дополнительную информацию: карта места события, фото- и видеоматериалы, интервью и статьи по теме, список упомянутых людей и организаций, а также ссылки по теме. Таким образом, на странице сюжета вы можете быстро понять, что произошло, где это произошло, и как новость освещают разные СМИ.

Сообщения объединяются в сюжет с помощью алгоритма кластеризации. Сначала робот Новостей анализирует все сообщения от партнёров и выделяет в них ключевые слова и факты с помощью разработанной в Яндексе технологии извлечения фактов. Затем он сравнивает выделенное и группирует сообщения по сюжетам. После того как сообщения сюжета отобраны, их необходимо отранжировать, и это самый интересный этап работы.

Даже человеку сложно решить, какая из десятков, а иногда и сотен новостей об одном и том же событии интереснее и полнее. Что говорить о компьютере. Чтобы формализовать этот выбор, робот Яндекс.Новостей рассчитывает «вес» сообщения на основе трёх критериев:

• цитируемость (сколько ссылок на это сообщение в других сообщениях сюжета, без учёта ссылок в аффилированных СМИ и самоцитирования),
• свежесть (время публикации сообщения по сравнению с другими источниками),
• информативность (наполненность сообщения ключевыми фактами сюжета).

Почему критерии именно такие? Мы ориентируемся на ожидания читателей: информация должна быть актуальной, полной и достоверной. Актуальность и полноту робот измерить может, а с достоверностью помогает цитируемость. Этот параметр сродни индексу цитирования в научном мире. Он говорит о том, насколько сообщениям этого СМИ доверяют другие издания.

Из фрагментов трёх лучших по этим критериям сообщений формируется краткое описание сюжета (аннотация). Фрагменты сообщений в аннотации должны содержать основные факты: даты и числа, названия объектов и организаций, имена людей, часто цитируемые высказывания. Как правило, фрагменты подбираются таким образом, чтобы дополнять друг друга и дать читателю как можно более полную картину произошедшего.

По тому же принципу выбирается заголовок сюжета. Прочитав его, вы должны сразу понять, о чём речь, поэтому он должен наиболее полно отражать актуальную фактическую сторону сюжета и не содержать лишних слов.

Под аннотацией в сюжете расположены другие сообщения СМИ о событии. Из всех сообщений робот выбирает наиболее цитируемые и ранжирует их по свежести. Остальные новости в виде хронологической ленты можно увидеть по ссылке в конце списка новостей. Приблизительно каждые 20 минут в сюжет добавляются свежие новости.

Кроме параметров самого сообщения при ранжировании учитывается ещё один фактор — вес источника, то есть СМИ, опубликовавшего новость. Он зависит от двух показателей. Это цитируемость — количество ссылок на источник в сообщениях других СМИ за последние два месяца — и оперативность — показатель того, насколько быстро источник реагирует на то или иное событие. Эти показатели автоматически пересчитываются раз в неделю. К примеру, на момент публикации этого текста первая двадцатка СМИ по весу выглядела так (в алфавитном порядке): Агентство спортивных новостей «Р-Спорт», «Ведомости», «Газета.Ru», «Известия», «Интерфакс», ИТАР-ТАСС, «Коммерсант», «Комсомольская правда», НТВ, ПРАЙМ, РБК, РИА Новости, «Росбалт», «Российская газета», «Спорт-Экспресс», телеканал «Дождь», «Чемпионат.com», «Эхо Москвы», Lenta.ru, REGNUM.

Вес СМИ играет незначительную роль при ранжировании сообщений. Он помогает нам в другом — ранжировать сюжеты. Как внутри сюжетов выбираются основные сообщения, так и внутри Яндекс.Новостей выбираются основные сюжеты. Вес источника помогает роботу оценить важность события. Если о каком-то событии пишут многие СМИ с большим весом, оно с высокой вероятностью важнее того события, о котором пишут менее весомые издания. Из этих важных событий и складывается новостная картина дня.

Как отбираются новости для главной страницы Яндекса?
На главной странице Яндекса должны оказаться самые важные события — такие, которые попали на главные страницы авторитетных СМИ. Поэтому при выборе новостей для главной страницы учитывается много разных параметров: количество сообщений об этом событии, вес пишущих о нём источников, плотность потока сообщений в единицу времени, а также позиция новости на сайте источника. Таким образом, на главную страницу Яндекса с большей вероятностью попадут события, о которых много пишут и которые попали на главные страницы авторитетных СМИ.

Почему в топе слишком много негативных новостей?
Яндекс.Новости собирают и структурируют информацию автоматически, они являются зеркалом медиасреды. Другими словами, мы лишь отражаем то, о чём пишут СМИ.

Почему в Яндекс.Новостях появляются опечатки?
Мы не вмешиваемся в работу алгоритмов. Все сообщения наших партнёров попадают в Яндекс.Новости в том виде, в каком они были переданы. Мы не исправляем опечатки вручную, а информируем источник об ошибке.

P.S. Если у вас есть вопросы о работе Яндекс.Новостей, задавайте их в комментариях. Кроме того, скоро мы проведём семинар на тему «Как работают Яндекс.Новости» для всех заинтересованных представителей СМИ. Отправляйте ваши заявки на news@support.yandex.ru, на ближайший семинар мы пригласим первых 70 записавшихся.

Команда Яндекс.Новостей

.


@темы: ya.ru:author:5105614, ya.ru:text, Новости, как это работает?

12:59 

Как это работает? Маршрутизация на Яндекс.Картах

Вчера мы объявили о масштабном обновлении Яндекс.Карт — на них появились подробные схемы большинства стран мира. За этим проектом стоит не просто нанесение на карту новых объектов, но прежде всего технологическая основа, которая позволяет хранить, быстро обрабатывать и обновлять эти данные. В Яндекс.Картах вообще немало интересных технологий, и сегодня мы хотим рассказать об одной из них — технологии построения маршрутов.

Десять-пятнадцать лет назад в бардачке каждого водителя лежал атлас дорог. Он и был главным помощником при планировании маршрута. Сейчас вместо атласа люди всё чаще открывают электронные карты и мобильные приложения. И умные алгоритмы сами строят для человека наилучший маршрут. Яндекс помогает людям планировать поездки на сервисе maps.yandex.ru, в мобильных приложениях Навигатор и Яндекс.Карты. Технология построения маршрута везде одна и та же, различаются только интерфейсы.

Главные составляющие маршрутизации — это дорожный граф и алгоритм, который рассчитывает маршрут.

Что такое граф

Дорожный граф — это сетка дорог. Она состоит из множества фрагментов, которые состыкованы между собой. Например, дорожный граф города Саратова (население — около 840 тысяч человек) состоит из 7592 фрагментов. Каждый из них несёт информацию о своём участке дороги: географические координаты, направление движения, средняя скорость, с которой машины обычно едут на этом участке, и другие параметры. Каждый фрагмент содержит также данные о том, как он стыкуется с соседними участками — есть ли в этом месте поворот направо или налево, можно ли там развернуться в обратную сторону или разрешается ехать только прямо.

Само собой, дорожный граф нельзя сделать раз и навсегда. Транспортная система города имеет обыкновение меняться. Появляются новые дороги и развязки, меняется направление движения. А там, где ещё недавно был поворот, может висеть «кирпич». Чтобы не отставать от жизни, Яндекс регулярно обновляет данные.

Во-первых, постоянно обрабатываются сообщения о неточностях в графе, которые пользователи присылают с помощью мобильных Яндекс.Карт, Навигатора и веб-сервиса Яндекс.Карты. С этими сообщениями работают эксперты Яндекса, которые используют также открытые источники информации о транспортной системе (например, сайты местных администраций).

Во-вторых, для определения неточностей на карте дорог существует специальная система. Она фиксирует все случаи, когда данные о движении машин, которые анонимно передают водители, не совпадают с имеющейся сеткой дорог. Если это не случайный нарушитель, который выехал на газон или развернулся в неположенном месте, возможно, на этом участке изменилась схема движения. Все такие случаи разбираются, и потом изменения вносятся в граф.

Дорожный граф хранится на серверах Яндекса в нескольких экземплярах — если какой-то из серверов будет временно недоступен, маршрутизация все равно будет работать.

Как строится маршрут

Маршрут рассчитывается по алгоритму Дейкстры. С его помощью система вычисляет самый быстрый вариант проезда — исходя из длины каждого отрезка графа и скорости движения на этом участке. Если пользователь строит маршрут проезда без учёта пробок, то алгоритм использует среднюю скорость движения на участке. А если пользователь хочет знать, как быстрее всего добраться до места с учётом ситуации на дороге, то алгоритм задействует данные о текущей ситуации на дороге.

Как это происходит, можно разобрать на примере. Представим, что нужно проложить маршрут из точки А в точку B. Алгоритм начинает методично перебирать все возможные варианты. Первым делом он прокладывает маршрут на один шаг (фрагмент графа) во все стороны от точки А. И затем вычисляет, сколько времени потребуется на преодоление этих участков (тут все просто — расстояние делится на скорость). Дальше он выбирает точку, до которой удалось бы добраться быстрее всего. Это точка С.


Затем алгоритм строит маршрут ещё на один шаг — во все стороны от точки С. И снова анализирует, в какую из точек можно было бы попасть быстрее всего. На этот раз это точка D. На следующем шаге алгоритм будет строить маршрут уже от неё.


Продолжая в том же духе, маршрутизатор находит вариант проезда, который оказывается самым коротким по времени.

Особая тема — дворы. Как известно, сквозной проезд через дворы запрещён. Кроме того, на петляния по дворам зачастую уходит больше времени, чем на проезд по прямой. Чтобы сервис не строил маршруты через дворы, за них начисляются дополнительные минуты (они не влияют на время в пути, которое видит пользователь). Поэтому в большинстве случаев алгоритм выбирает другие варианты проезда — они занимают меньше времени. Однако если конечная точка маршрута находится во дворе, алгоритму в любом случае придётся туда «въехать».

Построение маршрута происходит очень быстро. Пока вы читаете эти несколько абзацев, сервис уже несколько раз успел бы оплести паутиной маршрутов всю Россию. Чтобы добиться такой скорости, всю карту автоматически поделили на множество областей, для каждой из которых можно посчитать оптимальные варианты её пересечения. Такой областью может быть, например, небольшой городок, через который проходит всего одна междугородняя трасса — въехать и выехать из города можно только по ней. Это значит, что Яндекс может заранее рассчитать оптимальный вариант проезда через этот город.

Если на пути пользователя лежат несколько таких областей, Яндекс просто складывает маршрут из уже готовых кусочков.

Всевозможные варианты проезда внутри каждой области и между ними Яндекс строит заранее — при каждом обновлении графа. Дальше, когда пользователь просит построить маршрут, сервис просто вытаскивает его из памяти. Правда, это срабатывает, только если человеку нужен маршрут без учёта пробок — заранее построенные маршруты рассчитаны на основе средней скорости движения, которая заложена в графе. Если же пользователь хочет построить маршрут с учетом ситуации на дороге и внутри области в данный момент есть пробки, Яндекс построит для него маршрут заново.

.


@темы: ya.ru:author:5105614, ya.ru:text, Карты, как это работает?

13:19 

Как это работает? Распознавание речи

Сегодня много кто решает повседневные задачи на ходу — с телефона. С его помощью можно проверить почту, отправить документы и фотографии, найти ближайший банкомат или построить автомобильный маршрут. Не для всех подобных задач удобно пользоваться клавиатурой, поэтому сейчас одно из самых актуальных направлений мобильной разработки — это управление голосом.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции YaC 2013 в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Если сказать голосовому поиску «Лев Толстой», смартфон услышит не имя и фамилию, не два слова, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи — восстановить по этому сигналу, что было сказано. Ситуацию осложняет то, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно интерпретировать их помогает система акустического моделирования.

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Дальше каждый из них пропускают через акустическую модель — функцию, которая определяет, какие звуки вы произнесли. На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые вы видите в результатах поиска. Мобильный Браузер в ответ на запрос «Лев Толстой» найдёт сайты о великом писателе, а Навигатор и Карты предложат улицу Льва Толстого.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

В русском языке, по разным теориям, около 40 фонем (звуковых единиц). Наша система распознавания речи сопоставляет входящий речевой сигнал с фонемами, а потом уже из них собирает слова. Например, слово «Яндекс» состоит из семи фонем — [й][а][н][д][э][к][с]. Фонемы могут обладать различной длительностью, и в разбивке по фреймам слово «Яндекс» может выглядеть, например, так — [й][й][а][а][а][а][а][а][а][а][а][а][н][н][д][д][э][к][с]. Произношение любой фонемы зависит от её соседей и позиции в слове. То есть звук [а] в начале, в середине и в конце слова — это три разных [а], а звук [а] между двумя гласными в сочетании «на аудиозаписи» отличается от [а] между согласными в слове «бак». Поэтому для хорошего распознавания фонема — слишком грубая единица.

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц — сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Во-первых, каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Во-вторых, есть таблица вероятностей переходов, которая указывает, что после «а» с одной вероятностью будет тоже «а», с другой — «б» и так далее. Это позволяет определить варианты последовательности фонем, а потом, по имеющимся у программы данным о произношении, морфологии и семантике — варианты слов, которые вы могли сказать.

Программа также умеет восстанавливать слова по смыслу. Если вы находитесь в шумном месте, говорите не очень чётко или используете неоднозначные слова, она достроит ваш запрос исходя из контекста и статистики. Например, фразу «мама мыла…» программа с большей вероятностью продолжит как «мама мыла раму», а не как «мама мыла рану». Благодаря машинному обучению на множестве данных наша программа устойчива к шуму, хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.


P.S. Кроме собственно технологии, мы представили на YaC 2013 публичное API для распознавания речи — SpeechKit. С его помощью разработчики могут добавить голосовой поиск Яндекса в свои приложения для Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно здесь.

.


@темы: ya.ru:text, ya.ru:author:5105614, как это работает?

11:32 

Как это работает? Персональный поиск

На один и тот же вопрос может быть несколько правильных ответов — в зависимости от нужд пользователя. Например, кому-то по запросу [nevermind] нужно найти перевод слова, а кому-то — альбом «Нирваны». Персональный поиск умеет учитывать личные интересы и предпочтения пользователя и выбирать наиболее подходящий для него ответ.

В основе персонального поиска лежит анализ поискового поведения — например, какие запросы задает человек, на какие сайты переходит, на каком языке общается с поисковой системой. Анализируя вопросы и переходы пользователя, Яндекс делает вывод о том, что ему сейчас важно и интересно. Так, если человек часто ищет бесплатный софт, бесплатные книги и музыку, вероятно, его в принципе интересует бесплатный контент. Эти данные учитываются как при выборе подсказок, так и при поиске персонального ответа на вопрос.


Подсказки

Выбирая для человека подсказки, Яндекс пытается предугадать его следующие запросы. При этом поисковая система опирается на вопросы людей с похожим поисковым поведением. Для этого было выделено 400 000 групп пользователей, интересы которых более-менее сходны. Разумеется, человек не зачисляется ни в одну из этих групп навсегда. По мере изменения интересов он переходит из одной группы в другую.

Практика показывает, что примерно четверть своих запросов пользователи задают повторно и часто кликают по одним и тем же результатам. Таким образом они переходят к любимым сайтам и документам. Чтобы облегчить им эту задачу, Яндекс добавляет в подсказки недавние запросы человека и его любимые сайты. Разумеется, при вводе запроса на соответствующие буквы. Например, если вчера пользователь спрашивал про [обои для гостиной], сегодня Яндекс сам предложит ему этот запрос в подсказках. А завсегдатаю ВКонтакте покажет ссылку на его любимую сеть — стоит только начать вводить ее название в поисковой строке.

Отбирая персональные подсказки, Яндекс учитывает также, какие запросы характерны для одной поисковой сессии. Например, если человек только что спрашивал [назад в будущее], и следующий его запрос начинается на «к», [кристофер ллойд] будет более полезен в подсказках, чем другие запросы на эту букву.

Персональные ответы

Мало помочь человеку задать вопрос, нужно еще подобрать ему наилучший ответ. Для этого используется специальная формула ранжирования. Она подстраивается под каждого пользователя с учетом его интересов и языковых предпочтений. С помощью персональной формулы Яндекс определяет, насколько каждый из найденных по запросу документов подходит конкретному человеку. Все документы получают свою оценку и располагаются в результатах поиска в соответствующем порядке. Получается, что по одному и тому же запросу два разных человека видят разные ответы. Например, вот как различаются подсказки и результаты поиска для людей с разной поисковой историей:

Формула ранжирования учитывает как постоянные (долгосрочные и среднесрочные), так и сиюминутные интересы человека. Все они в разной мере влияют на качество ответа на вопрос. Так, постоянные интересы отражают языковые предпочтения пользователя, его привычки и близкие ему темы. А сиюминутные — показывают, что важно человеку прямо сейчас. Например, пользователь, который обычно спрашивает про кино и музыку, может неожиданно заинтересоваться компьютерными играми, а потом надолго о них забыть. Таких интересов, которые быстро возникают и так же быстро сходят на нет, больше половины.

Чтобы быть в курсе постоянных интересов пользователя, Яндекс анализирует его поисковую историю за последние два месяца и за неделю. А чтобы следить за сиюминутными интересами – обрабатывает данные поисковых сессий в режиме реального времени. Это позволяет понять, что важно человеку прямо сейчас, и подстроиться под его интересы. Скажем , если в поисковой сессии любителя литературы вместе с названием произведения встретилось слово [афиша], возможно, что в данный момент человека интересует экранизация. Вот как различаются результаты поиска с учетом и без учета сиюминутных интересов пользователя:

Чтобы мгновенно реагировать на изменения в поисковом поведении людей, Яндекс создал систему обработки данных в режиме реального времени. Она обрабатывает более 10 терабайт данных в сутки, постоянно корректируя свои знания о потребностях пользователей. Благодаря этой системе запросы и клики, которые человек сделал только что, начинают влиять на результаты поиска уже через несколько секунд.

По умолчанию персональный поиск работает для всех пользователей поиска. И чем больше запросов задает человек, тем лучше поиск его понимает. Впрочем, каждый пользователь может сам решать, нужны ему ответы с учетом интересов или нет. Персональный поиск можно в любой момент включить или отключить в настройках сервиса.

.


@темы: Поиск, ya.ru:text, ya.ru:author:1556684, как это работает?, персонализация

Блог Яндекса

главная