Специалисты по анализу данных находят общий язык с физиками из ЦЕРН

Рассказ сотрудника лаборатории методов анализа больших данных LAMBDA об опыте работы на Большом адронном коллайдере 

Специалисты по анализу данных находят общий язык с физиками из ЦЕРН

Яндекс в вузах

В лаборатории физики высоких энергий ЦЕРН, где открыли бозон Хиггса и продолжают разгонять протоны по многокилометровым ускорителям, работают не только физики. Чтобы превратить эксперименты в научные открытия, необходимо обрабатывать колоссальные объемы данных. С 2015 года к работе подключилась Школа анализа данных Яндекса, а с 2018-го — научно-учебная лаборатория методов анализа больших данных LAMBDA, созданная Высшей школой экономики.  Сотрудник лаборатории и выпускник ШАДа Никита Казеев рассказал, как московские специалисты по машинному интеллекту  находят общий язык с физиками в Женеве. 

Силуэт детектора LHCb на вьезде в экспериментальную зону

Как лаборатория помогает науке

Наша лаборатория разрабатывает инструменты, которые помогают физикам анализировать данные, полученные в результате столкновений частиц на Большом адронном коллайдере. При этом LAMBDA — не просто поставщик технологии, а полноправный участник команды ученых, работающих на детекторе LHCb.

Так, мы помогли найти оптимальную форму магнита для предстоящего эксперимента SHiP (поиск скрытых частиц) на одном из малых ускорителей. В ходе эксперимента пучок протонов разбивается о специальную металлическую мишень. Большую часть известных частиц отфильтровывают металл и магнитные поля, а в оставшемся потоке ученые ищут новые частицы. Чтобы убрать из потока лишнее, нужен большой и дорогой магнит. С помощью компьютерной симуляции эксперимента мы смогли найти для магнита оптимальную форму, что должно снизить его стоимость на 25%. Этот эксперимент будет проходить на ускорителе SPS, но большая часть нашей работы все-таки сосредоточена на Большом адронном коллайдере.

Конфигурация магнитов для эксперимента SHiP

Для него LAMBDA разработала систему машинного обучения, которая определяет виды частиц, образовавшихся после столкновения протонов друг с другом. Она объединила данные со всех подсистем детектора LHCb и при помощи библиотеки для построения моделей машинного обучения CatBoost и глубоких нейросетей повысила точность идентификации частиц.

Сейчас для одной из подсистем лаборатория разрабатывает алгоритм, который позволит, не дожидаясь, когда будут готовы все данные о столкновении, эффективно искать так называемые мюоны. Наличие этих частиц в потоке означает, что столкновение протонов было интересным с точки зрения физиков и его стоит изучить. Без алгоритмов машинного обучения точность экспериментов будет значительно ниже, и чтобы достичь такого же качества работы, которое есть сейчас, ученым потребуется гораздо больше данных. Это значит, что коллайдер придется гонять дольше, потратив несметные мегаватты электричества и миллионы швейцарских франков.

Почему ученые не доверяют машине

Несмотря на то, что именно в ЦЕРНе появилась Всемирная паутина и здесь стали использовать нейросети ещё до того, как это стало мейнстримом, найти общий язык физикам и специалистам по машинному обучению бывает непросто.

Здесь обрабатывают данные с детектора

Модели машинного обучения, принципы работы которых сложно объяснить и проверить на практике, воспринимаются в ЦЕРНе скептически. В науке очень важно постоянство и возможность отследить и проверить любые изменения. Поэтому, например, мы не пытаемся дообучать наши алгоритмы в процессе работы. Это породило бы множество проблем: сегодня алгоритм ведет себя так, а завтра иначе.

Проблема заключается еще и в том, что большинство физиков пишет не слишком хороший код. Чаще всего программировать заставляют молодых ученых и аспирантов. Такие люди мечтают делать открытия, а не возиться с программированием. Но в последнее время в команде детектора LHCb начали понимать важность качественного кода. Стало гораздо больше людей, которые программируют хорошо и с удовольствием и учат этому других.

Что касается специалистов по анализу данных, то в нашей лаборатории достаточно много сотрудников, которые разбираются в физике частиц. Я сам еще в школе взял серебряную медаль на естественнонаучной олимпиаде IJSO в Корее, учился на Физтехе, но, когда во время учебы в Школе анализа данных меня пригласили в эту лабораторию, я понял, что физику частиц придется подтягивать. Несмотря на это, первое время было сложно выстроить совместную работу специалистов по машинному обучению и физиков: различия были даже в терминах. Но в конечном счете мы же не какие-нибудь поэты, мы все же ученые. Опираемся на один математический аппарат. Берешь и разбираешься!

Зачем все это нужно

Открытия, которые делаются в ЦЕРНе, принесут практическую пользу лет через сто. Сейчас ученые занимаются тем, что изучают базовые блоки, из которых состоит наш мир. Электричество тоже изучали ученые, которые исследовали мир без какой-то прикладной цели, а в итоге их открытия с лихвой окупили перед человечеством многовековые исследования.

Полупроводники тоже открыли, не пытаясь улучшить вычислительную технику, а изучая свойства материалов. Так и сейчас, чтобы в будущем дойти до межзвездных полетов и новых источников энергии, которые невозможны на современном этапе развития физики, не остается ничего другого, как искать новую физику и сталкивать частицы за миллиарды франков.

Больше по теме

Яндекс в вузах

Студенческий практикум в центре «Сириус»: ожидания и реальность

Как команды со всей России за две недели справились с созданием полноценных проектов?

Яндекс в вузах

Как устроена программа научного руководства в Яндексе

Рассказывает студент МФТИ Федор Моисеев 

Яндекс в вузах

За что дают стипендию имени Ильи Сегаловича?

3D-моделирование, солнечные течения и паттерн майнинг

Яндекс в вузах

Студент МФТИ о компьютерном зрении и красоте

Если искусственный интеллект захочет жить в нашем мире, ему будет просто необходимо уметь видеть

Яндекс в вузах

Совместная траектория УрФу и Школы анализа данных

Совместная траектория УрФу и Школы анализа данных Яндекса «Анализ данных» работает в рамках магистерской программы «Современные проблемы компьютерных наук» с сентября 2017 года

Яндекс в вузах

Бакалаврские и магистерские программы Яндекса и СПбГУ

Сотрудничество Яндекса и СПбГУ началось в 2014 году на уровне магистратуры. С 2018 года Яндекс активно участвует в подготовке бакалавров в сотрудничестве с лабораторией им. П. Л.  Чебышева СПбГУ

Яндекс в вузах

Совместная специальность Яндекса и БГУ

Обучение в практико-ориентированной магистратуре по специальности «Алгоритмы и системы обработки больших объемов информации»