Challenge description | Download dataset | Results

Скачать данные | Результаты конкурса

Данные предоставляются исключительно для личного использования и предназначены для выполнения заданий конкурса «Интернет-математика 2009»


В 2009 году конкурс «Интернет-математика» проводился в третий раз. На этот раз формат конкурса существенно изменился, при этом тематика конкурса осталась прежней – информационный поиск. В рамках данного конкретного конкурса все участники решали одну задачу – получение функции ранжирования документов на основе обучающего множества (признаков пар «запрос-документ», снабженных оценками релевантности).

В рамках конкурса «Интернет-математика — 2009» были предоставлены реальные таблицы оценок, которые используются для подбора формулы ранжирования Яндекса. Таблицы содержат уже посчитанные и нормализованные признаки пар «запрос-документ», а также оценки релевантности, сделанные асессорами (оценщиками качества поиска) Яндекса.

Задача и данные

Данные

В рамках конкурса «Интернет-математика» мы распространяем реальные таблицы оценок, которые используются для подбора формулы ранжирования Яндекса. Таблицы содержат уже посчитанные и нормализованные признаки пар «запрос-документ», а также оценки релевантности, сделанные асессорами (оценщиками качества поиска) Яндекса. Таблицы не содержат оригинальных запросов и ссылок на оригинальные документы, не описана семантика признаков (признаки просто пронумерованы). Примеры признаков, участвующих в таблице, – tf*idf, PageRank, длина запроса в словах.

Данные разбиты на два файла – обучающее множество (imat2009_learning.txt) и множество для оценки (imat2009_test.txt). Файл с обучающим множеством содержит 97 290 строк, которые соответствуют 9 124 запросам. Множество для оценки (115 643 строки) делится на часть для предварительной публичной оценки (первые 21 103 строки) и часть для финальной оценки (остальные строки). Данные разбиты так: 45% – обучение, 10% – публичная оценка, 45% – финальная оценка. Каждая строка файлов данных соответствует паре «запрос-документ». Все признаки либо бинарные – принимают значения из {0, 1}, либо непрерывные. Значения непрерывных признаков нормированы на интервал [0, 1]. Каждой паре «запрос-документ» соответствуют значения 245 признаков. Данные представлены в формате, готовом для загрузки в SVMlight в режиме построения регрессии. Если значение признака равно 0, то он опускается. В комментариях в конце каждой строки указан идентификатор запроса. Файл с обучающей выборкой содержит оценку релевантности, значения из диапазона [0, 4] (4 – «высокая релевантность», 0 – «нерелевантно»).

Формат файла с обучающим множеством:

<line> .=. <relevance> <feature>:<value> <feature>:<value> ... <feature>:<value> # <queryid>
<relevance> .=. <float>
<feature> .=. <integer>
<value> .=. <float>
<queryid> .=. <integer>

Оценка

Полученные от участников оценки релевантности документов ранжируются внутри каждого запроса по убыванию, причем в случае одинаковых значений выше ранжируется документ с худшей оценкой асессора.По ранжированному списку на основании оценок асессеров вычисляется метрика качества. Метрикой качества ранжирования в рамках конкурса является Discounted Cumulative Gain (DCG), усредненный по всем запросам. Мы используем такую формулу для вычисления DCG:

Результаты

Результат выполнения конкурсного задания – это файл, содержащий ровно 115 643 строки. В каждой строке записано число (полученная оценка релевантости), соответствующее строке файла множества для оценки. Первые 21 103 строки используются для предварительной публичной оценки, остальные будут использованы для финальной оценки при подведении итогов конкурса. По результатам предварительной публичной оценки формируется текущий рейтинг решений. Каждая команда может многократно подавать файл с результатами вплоть до окончания приема результатов, но не чаще, чем один раз в 10 минут. После окончания приема результатов вычисляется финальная оценка – значение метрики по второй части множества для оценки. На основании финальной оценки подводятся итоги конкурса и объявляются победители.