Challenge description | Download the dataset | Results

Скачать архив с данными | Результаты

Данные предоставляются исключительно для личного использования и предназначены для выполнения заданий конкурса «Интернет-математика 2011»


«Интернет-математика» — это серия конкурсов, организованная Яндексом. В 2011 году это был второй конкурс, а с момента появления «Интернет-математики» — шестой. Как и в прошлые годы, в ходе соревнования решалась реальная задача на основе реальных данных. В предыдущих конкурсах участники решали задачу ранжирования, предсказывали пробки и искали похожие изображения.

Цель этого конкретного конкурса — предоставить всем желающим возможность продолжить исследования по предсказанию релевантности документов по пользовательскому поведению. Такие исследования проводились последние несколько лет преимущественно в ведущих индустриальных лабораториях. Специально для конкурса Яндекс предоставил полностью обезличенный набор данных — информацию о кликах пользователей на документы и асессорские оценки релевантности этих документов.

Задача и данные

Данные, необходимые для выполнения конкурсного задания, представляют из себя пользовательские поисковые логи, содержащие запросные сессии, запросы, списки отранжированных документов, показанных пользователям и пользовательские клики на них. Помимо этого, данные содержат оценки релевантности для документов. Все данные полностью анонимизированы и все запросы, сессии, документы представлены только числовыми идентификаторами. Все запросы сгруппированы только по сессиям и не привязаны ни к каким идентификаторам пользователя.

Данные содержат:

  • Уникальных запросов: 30,717,251
  • Уникальных документов: 117,093,258
  • Сессий: 43,977,859
  • Всего записей (строк): 340,796,067
  • Оцененных троек запрос-регион-документ: 71,930
  • Оцененных пар запрос-регион: 8,410
  • Логи приблизительно двухлетней давности и не содержат в себе запросы с коммерческим интентом.

Лог

Логи представляют из себя набор строк, где каждая строка представляет одно из возможных пользовательских действий: запрос или клик.

Запрос:

 
SessionID TimePassed TypeOfAction QueryID RegionID ListOfURLs

Клик:

 
SessionID TimePassed TypeOfAction URLID

SessionID - уникальный идентификатор пользовательской сессии.

TimePassed - время, прошедшее с начала текущей сессии в условных временных единицах. Количество миллисекунд в одной временной единице не разглашается.

TypeOfAction - тип пользовательского действия. Это может быть либо запрос (Q), либо клик (C).

QueryID - уникальный идентификатор запроса.

RegionID - уникальный идентификатор страны, из которой задан запрос. Мы включили этот идентификатор, поскольку ранжирования документов и оценки релевантности могут зависеть от страны пользователя (например, для запроса “Министерство Иностранных Дел”). Этот идентификатор может принимать четыре значения.

URLID - уникальный идентификатор документа.

ListOfURLs - список документов, отранжированный слева направо так как они были показаны пользователям на странице выдачи Яндекса (сверху вниз).

Пример:

 
10989856    0   Q   10364965  2  671723  21839763  3840421  180513  45660210  514963  41484044  3153206  1439919  4991367
10989856    103 C   21839763
10989856    955 Q   1009161  2  197515  197539  11  179526  5859272  1624306  1587784  1624296  5859294  2186374
10989856    960 C   197515

Каждая строка в файле содержащем оценки имеет следующий формат:

 
QueryID RegionID URLID RelevanceLabel

QueryID - уникальный идентификатор запроса.

RegionID - уникальный идентификатор страны, из которой задан запрос.

URLID - уникальный идентификатор документа.

RelevanceLabel - бинарная оценка релевантности (0 или 1).

Пример:

 
1209161 2 5839294  1 
1209161 2 1912415  1
1209161 2 1621201  1 
1209161 2 1111     0

Задача

Задача данного конкурса - правильно предсказать релевантность документов для данного набора запросов, используя пользовательское поведение по этим запросам. Предоставляемый поисковый лог может использоваться как для тренировки моделей для тренировочного набора запросов, так и для предсказания релевантности документов для тестового набора запросов.

Мера оценки качества предсказания

Результаты будут оцениваться путем подсчета меры AUC[1] (Area Under Curve), которая считается для списка документов, отранжированных по вероятности принадлежности к классу релевантных документов. Среднее значение этой меры, усредненное по тестовым запросам, будет использоваться для определения выигравших участников. Только оцененные документы будут учитываться при подсчете этой меры - все неоцененные будут просто игнорироваться. AUC - популярная мера для оценки качества классификаторов и представляет собой вероятность, что данный классификатор для случайно выбранной пары, состоящей из релевантного и нерелевантного документа, присвоит большую вероятность релевантности - релевантному документу.

Результаты

Поскольку только сами идентификаторы документов, отранжированные по запросу имеют значение для подсчета меры AUC, участники должны послать список идентификаторов URLID для каждого тестового запроса, отранжированный слева направо по убыванию их вероятности принадлежности релевантному классу. Результаты таким образом должны представлять собой текстовые файлы, содержащие следующие строки для каждого тестового запроса, в которых каждое значение разделено табуляцией:

 
QueryID RegionID URLID URLID URLID URLID URLID URLID URLID URLID

Все URLID документов, показанных хотя бы раз для конкретной пары QueryID-RegionID, могут быть включены в список отранжированных документов этой пары. При этом URLID документов, никогда не возвращавшихся поисковой системой для данных QueryID-RegionID, будут игнорироваться при подсчете меры качества, поскольку среди них нет оцененных асессорами документов. Обратите внимание, что если в список не будут включены какие-либо из оцененных асессорами документов, то такие документы будут автоматически добавлены в конец предоставляемого списка в наихудшем порядке (сначала нерелвантные, потом релевантные).

Участникам разрешается предоставлять сколько угодно результатов в течение конкурса, но делать это не чаще, чем раз в 2 часа. Только последний загруженный результат будет приниматься во внимание при определении победителей.

Важнейшим условием участия в конкурсе является описание метода, с помощью которого было произведен результат (длиной от 150 до 700 символов) на английском (желательно) или на русском языке. Это описание предоставляется вместе с результатами при их загрузке. Организаторы оставляют за собой право аннулировать регистрацию участников, которые предоставляют бессмысленные или неинформативные описания своих результатов.

Тестовый набор запросов разделен на две части. Первая часть используется для подсчета текущего Рейтинга команд. Вторая - для определения команд, занявших с первого по третье место. Размер и состав каждой из частей тестовой выборки запросов не сообщаются участникам.

Обратите внимание, что в тренировочной части данных есть запросы с оценками только одного вида и запросы с более чем 300 показанными урлами. В тестовой части данных таких запросов нет.

Архив с набором данных содержит следующие три файла:

Clicklog.txt – пользовательский лог,

Trainq.txt – набор оценок для обучения,

Testq.txt – список тестовых запросов. Каждое загружаемое решение должно содержать предсказания (списки отранжированных документов) для каждого запроса из данного списка и только для них.

Победители и Призы

По окончании конкурса, все последние результаты участников будут отранжированы по убыванию значений официальной меры качества конкурса. Первые три участника получат денежные призы в размере:

За первое место: $5,000

За второе место: $3,000

За третье место: $1,000

В случае, если более одного результата разных участников будут иметь одинаковые значения меры качества, результат присланный раньше будет иметь преимущество.

Одним из главных условий получения приза является предоставление полного технического отчета с описанием методики получения результата. Отчет должен содержать достаточно информации, чтобы результат можно было бы воспроизвести без участия самого участника предоставившего результат. Отчет должен быть предоставлен до 20 января 2012 года в формате ACM (Tighter Alternate Style) и занимать не более 8 страниц.

Мы также надеемся, хотя это и не является условием получения приза, что победители и просто лидеры конкурса (отобранные организаторами конкурса) представят доклад с описанием их метода на семинаре WSCD, который состоится 12 февраля 2012 года в Сиэттле, США. Однако, все расходы по участию в семинаре каждый приглашенный участник обязан взять на себя сам.

Лучшему из российских участников конкурса или одному представителю лучшей Российской команды, независимо от занятого ими места среди всех участников, будет оплачен перелет экономическим классом от места проживания до Сиэттла, США и стоимость регистрации на конференции WSDM 2012.

[1] AUC: a Statistically Consistent and more Discriminating Measure than Accuracy. Charles X. Ling, Jin Huang, Harry Zhang. 2001. [pdf]

Поздравления призеров

1-й приз: keinorhasen Botao Hu (Hong Kong University of Science and Technology), Nathan N. Liu (Hong Kong University of Science and Technology), Weizhu Chen (Microsoft Research Asia, Hong Kong University of Science and Technology) [отчет]

2-й приз: mmp Михаил Фигурнов (Московский Государственный Университет), Александр Кириллов (Московский Государственный Университет) [отчет]

3-й приз: S-n-D Сергей Гуда (Южный Федеральный Университет), Денис Рябов (Южный Федеральный Университет) [отчет]

Отчеты лучших команд были представлены на семинаре WSCD, который проводился совместно с конференцией WSDM2012.