Специалисты по анализу данных находят общий язык с физиками из ЦЕРН

11 марта 2019

Рассказ сотрудника лаборатории методов анализа больших данных LAMBDA об опыте работы на Большом адронном коллайдере.

В лаборатории физики высоких энергий ЦЕРН, где открыли бозон Хиггса и продолжают разгонять протоны по многокилометровым ускорителям, работают не только физики. Чтобы превратить эксперименты в научные открытия, необходимо обрабатывать колоссальные объемы данных. С 2015 года к работе подключилась Школа анализа данных Яндекса, а с 2018-го — научно-учебная лаборатория методов анализа больших данных LAMBDA, созданная Высшей школой экономики. Сотрудник лаборатории и выпускник ШАДа Никита Казеев рассказал, как московские специалисты по машинному интеллекту находят общий язык с физиками в Женеве.

Силуэт детектора LHCb на вьезде в экспериментальную зону

Как лаборатория помогает науке

Наша лаборатория разрабатывает инструменты, которые помогают физикам анализировать данные, полученные в результате столкновений частиц на Большом адронном коллайдере. При этом LAMBDA — не просто поставщик технологии, а полноправный участник команды ученых, работающих на детекторе LHCb.

Так, мы помогли найти оптимальную форму магнита для предстоящего эксперимента SHiP (поиск скрытых частиц) на одном из малых ускорителей. В ходе эксперимента пучок протонов разбивается о специальную металлическую мишень. Большую часть известных частиц отфильтровывают металл и магнитные поля, а в оставшемся потоке ученые ищут новые частицы. Чтобы убрать из потока лишнее, нужен большой и дорогой магнит. С помощью компьютерной симуляции эксперимента мы смогли найти для магнита оптимальную форму, что должно снизить его стоимость на 25%. Этот эксперимент будет проходить на ускорителе SPS, но большая часть нашей работы все-таки сосредоточена на Большом адронном коллайдере.

Конфигурация магнитов для эксперимента SHiP

Для него LAMBDA разработала систему машинного обучения, которая определяет виды частиц, образовавшихся после столкновения протонов друг с другом. Она объединила данные со всех подсистем детектора LHCb и при помощи библиотеки для построения моделей машинного обучения CatBoost и глубоких нейросетей повысила точность идентификации частиц.

Сейчас для одной из подсистем лаборатория разрабатывает алгоритм, который позволит, не дожидаясь, когда будут готовы все данные о столкновении, эффективно искать так называемые мюоны. Наличие этих частиц в потоке означает, что столкновение протонов было интересным с точки зрения физиков и его стоит изучить. Без алгоритмов машинного обучения точность экспериментов будет значительно ниже, и чтобы достичь такого же качества работы, которое есть сейчас, ученым потребуется гораздо больше данных. Это значит, что коллайдер придется гонять дольше, потратив несметные мегаватты электричества и миллионы швейцарских франков.

Почему ученые не доверяют машине

Несмотря на то, что именно в ЦЕРНе появилась Всемирная паутина и здесь стали использовать нейросети ещё до того, как это стало мейнстримом, найти общий язык физикам и специалистам по машинному обучению бывает непросто.

Модели машинного обучения, принципы работы которых сложно объяснить и проверить на практике, воспринимаются в ЦЕРНе скептически. В науке очень важно постоянство и возможность отследить и проверить любые изменения. Поэтому, например, мы не пытаемся дообучать наши алгоритмы в процессе работы. Это породило бы множество проблем: сегодня алгоритм ведет себя так, а завтра иначе.

Проблема заключается еще и в том, что большинство физиков пишет не слишком хороший код. Чаще всего программировать заставляют молодых ученых и аспирантов. Такие люди мечтают делать открытия, а не возиться с программированием. Но в последнее время в команде детектора LHCb начали понимать важность качественного кода. Стало гораздо больше людей, которые программируют хорошо и с удовольствием и учат этому других.

Что касается специалистов по анализу данных, то в нашей лаборатории достаточно много сотрудников, которые разбираются в физике частиц. Я сам еще в школе взял серебряную медаль на естественнонаучной олимпиаде IJSO в Корее, учился на Физтехе, но, когда во время учебы в Школе анализа данных меня пригласили в эту лабораторию, я понял, что физику частиц придется подтягивать. Несмотря на это, первое время было сложно выстроить совместную работу специалистов по машинному обучению и физиков: различия были даже в терминах. Но в конечном счете мы же не какие-нибудь поэты, мы все же ученые. Опираемся на один математический аппарат. Берешь и разбираешься!

Зачем все это нужно

Открытия, которые делаются в ЦЕРНе, принесут практическую пользу лет через сто. Сейчас ученые занимаются тем, что изучают базовые блоки, из которых состоит наш мир. Электричество тоже изучали ученые, которые исследовали мир без какой-то прикладной цели, а в итоге их открытия с лихвой окупили перед человечеством многовековые исследования.

Полупроводники тоже открыли, не пытаясь улучшить вычислительную технику, а изучая свойства материалов. Так и сейчас, чтобы в будущем дойти до межзвездных полетов и новых источников энергии, которые невозможны на современном этапе развития физики, не остается ничего другого, как искать новую физику и сталкивать частицы за миллиарды франков.