Доклады «Яндекса» на WWW2006

23–26 мая 2006 г. в Эдинбурге состоится конференция WWW2006, в программу которой включены два доклада от «Яндекса». Их тексты выложены в открытый доступ. Первый доклад «Extracting News-Related Queries from Web Query Log» посвящен эффективному методу выделения из общего объема запросов тех, что относятся к новостным событиям. Выделенные таким образом запросы используются на сервисе «Яндекс.Новости» для кластеризации и ранжирования сообщений.

Идентификация новостного запроса происходит по нескольким признакам. Во-первых, новизна самого запроса по сравнению с аналогичным промежутком времени в прошлом. Во-вторых, наличие в течение трех последних часов сюжетов новостей, релевантных поисковому запросу.

По оценке «Яндекса», количество новостных запросов в общем объеме поисковых запросов составляет от 0,01% до 0,1%. При этом 33% новостных запросов имеют длину в одно слово, а 37% — в два слова. В обычном поиске доля многословных запросов составляет 81%. Кроме меньшей длины, у новостных запросов есть и другие специфические признаки. Все они перечислены в статье.

Второй доклад «Automatic Geotagging of Russian Web Sites» описывает метод автоматического определения географии сайта, основанный на анализе IP-адреса, URL и содержания сайта. По мере того, как Рунет все больше «прирастает регионами», локализация веб-ресурсов приобретает все более важное значение. «Яндекс» осуществляет геотаргетинг с помощью нескольких методов: контент-анализ веб-страниц (поиск географических названий, телефонных кодов и адресов на странице), анализ доменного имени, анализ доменной иерархии, сверка с базой IP-адресов.

Конференции серии WWW являются важным событием для исследователей и представителей интернет-индустрии. Традиционно тексты всех докладов публикуются в онлайне, так что специалисты получают возможность познакомиться с самыми актуальными научными исследованиями в этой области. Например, на конференции WWW2005 работали 26 тематических секций, в каждой из которых было представлено и опубликовано в открытом доступе несколько интересных научных работ.

Источник: Вебпланет



Опубликовал admin
11 Апр, Вторник 2006г.



Программирование для чайников.