Нейросети перешли с фотографий котиков на субъядерную физику

Руководитель лаборатории LAMBDA Андрей Устюжанин рассказал, как соревнующиеся нейросети, которые раньше использовали для создания песен и правдоподобных фотографий, научили предсказывать поведение элементарных частиц

Нейросети перешли с фотографий котиков на субъядерную физику

Анализ данных

Ученые ВШЭ и Яндекса разработали метод, который поможет физикам Европейской организации по ядерным исследованиям (ЦЕРН) быстрее понимать, что происходит внутри Большого адронного коллайдера при столкновении частиц. Руководитель лаборатории LAMBDA Андрей Устюжанин рассказал, как соревнующиеся нейросети, которые раньше использовали для создания песен и правдоподобных фотографий, научили предсказывать поведение элементарных частиц.

В поисках новой физики на Большом адронном коллайдере разгоняют элементарные частицы, сталкивают их и следят за распадом образовавшихся частиц. Чтобы отследить такие распады, физики изучают данные, полученные с детекторов, установленных на коллайдере. Большую долю частиц можно узнать и идентифицировать по их поведению, но чтобы найти следы новых частиц или неизвестных процессов, нужно сначала отсеять всё уже известное.

Массив данных огромен, и для работы с ним применяют алгоритмы машинного обучения. Чтобы алгоритмы научились понимать, как правильно разложить по полочкам миллионы событий, происходящих внутри детектора, и выдать физикам общую картину произошедшего, их знакомят с тысячами уникальных столкновений, рассчитанных на программе физической симуляции. Исследователи лаборатории ВШЭ LAMBDA с помощью генеративных состязательных сетей (generative adversarial networks) научились ускорять процесс физических расчетов столкновений внутри детектора, а также внутри программ первичной реконструкции этих столкновений, чтобы предоставить новым алгоритмам анализа данных как можно больше «учебного материала». При увеличении скорости на несколько порядков точность расчетов осталась на прежнем уровне.  

«Чтобы обучить наши нейросети, мы использовали данные физических симуляторов, про которые точно известно, что происходило в тот момент: где, например, электроны, где другие частицы, как они себя ведут, как на них реагирует детектор и программы восстановления типов частиц, — рассказывает заведующий лабораторией LAMBDA Андрей Устюжанин. — Для обучения используются данные из классического симулятора, который хорошо соответствует реальности. На этих же данных физики ЦЕРНа обучают свои алгоритмы идентификации частиц. Но мы сделали еще один шаг вперед, объединив в генеративной модели физическую симуляцию и программную обработку». 

Метод, благодаря которому удалось сделать шаг вперед, широко использовался для восстановления многомерных объектов

 Его часто используют для генерации правдоподобных фотографий, текста, звуков или для имитации голоса, но для такой задачи на Большом адронном коллайдере его еще не применяли. 

Сотрудники лаборатории обучили две нейросети, которые как бы соревнуются между собой: одна генерирует наблюдаемые характеристики элементарных частиц при заданных параметрах, а вторая проверяет, насколько хорошо первой это удалось, сравнивая результаты работы первой сети с заведомо правильными результатами. В итоге генеративные состязательные сети, которые раньше работали с фотографиями котиков или с песнями, научились предсказывать отклик детектора на поведение элементарных частиц. И так как две сети уже знают, как должны вести себя известные частицы, обученные на их данных алгоритмы подскажут физикам, где и когда произошло что-то необычное — именно в таких ситуациях может проявиться неизвестная частица, какой когда-то был, например, бозон Хиггса.

«Детекторы, с которых мы получаем информацию о происходящем после столкновения, настроены на то, чтобы видеть долгоживущие типы частиц, экзотические и неизвестные, как правило, живут недолго и не оставляют заметных следов. Определение экзотических распадов происходит по вторичным признакам. Неизвестная науке частица, которая появилась после распада, живет недолго, но она может как-то себя проявить, распавшись на другие известные нам частицы или столкнувшись с чем-то еще. Мы определяем появление таких частиц через статистические отклонения от известных нам величин, — объясняет Устюжанин. — Задача исследователей — определить, что в данных присутствует это статистическое отклонение. Данные гигантские. В них происходит всё на свете, и понять, что конкретно в данном месте в данное время произошло нечто экстраординарное, довольно сложно. В этих задачах машинное обучение просто незаменимо».  

Команда Устюжанина работает совместно с физиками, которые занимаются экспериментами на LHCb, одном из детекторов Большого адронного коллайдера. Именно для этого детектора и будет применяться новый метод. Основная часть работы над проектом заняла почти четыре месяца. Для непосредственного обучения нейросетей потребовалось не очень много времени, однако нужно было понять, на каких данных их учить и как убедить себя и коллег в необходимости таких методов.

«Мы начали с простого детектора BaBar DIRC, который использовал черенковское излучение для определения вида частиц, которые сквозь него пролетают. Когда мы выяснили, что на нем всё хорошо работает, мы перешли к самому LHCb, на котором и планируем применять наш метод. Плюс проверки и переговоры», — объясняет Андрей Устюжанин.

Сейчас Большой адронный коллайдер временно закрыт, но в 2021 году, когда его работа возобновится, новые алгоритмы начнут использоваться на практике. Возможно, в будущем подход, разработанный учеными ВШЭ и Яндекса, поможет ускорить работу и на других детекторах Большого адронного коллайдера.

Больше по теме

Анализ данных

Machine Learning Summer School

Международная школа по машинному обучению от Института им. Макса Планка в Сколтехе.

Анализ данных

Финалисты олимпиады IDAO-2019 о своих впечатлениях

«У нас было много безумных идей!»

Анализ данных

Школа анализа данных Яндекса

Стань продвинутым датасаентистом

Анализ данных

Бери и делай: советы блогера, который смог поступить в ШАД

Несмотря на гуманитарное образование, выпускник МГИМО, бизнесмен Виктор Рогуленко решил поступить в ШАД, чтобы разобраться в анализе данных на высоком уровне

Анализ данных

Резидентская программа Яндекса по ML

Отличная возможность для опытных бэкенд разработчиков заняться прикладными исследованиями под руководством наших менторов — даже если вы новичок в этой области.

Анализ данных

Набор в Computer Science Center

Анализ данных

Четыре пути из Школы анализа данных Яндекса

Ученые и разработчики рассказывают о своем образовании и карьере