Как ШАД и Имперский колледж Лондона учат физиков машинному обучению

Рассказывает выпускник Школы анализа данных и лаборатории LAMBDA  — Сергей Широбоков

Как ШАД и Имперский колледж Лондона учат физиков машинному обучению

Анализ данных

Школа анализа данных Яндекса сотрудничает с разными учебными заведениями: мы уже рассказывали о программе ШАДа и Российской экономической школы и об онлайн-магистратуре в Высшей школе экономики. Кроме того, ШАД в течении пяти лет проводит интенсив для аспирантов Имперского колледжа Лондона. Преподаватели и выпускники ШАДа ведут в этом университете двухнедельный курс по машинному обучению. Аспирант Имперского колледжа и по совместительству преподаватель интенсива Сергей Широбоков рассказал, как устроены занятия и для каких задач физики применяют машинное обучение.

Как устроены занятия в Имперском колледже Лондона

Интенсив проходит раз в год. Он ориентирован на то, чтобы дать людям, которые занимаются физикой высоких энергий, основные представления о машинном обучении.

Занятия поделены на несколько тематических блоков: классическое машинное обучение, глубинное обучение и применение машинного обучения в физике. Каждый учебный день начинается с трех часов лекций — их читает Виктор Китов, доцент кафедры математических методов прогнозирования на факультете вычислительной математики и кибернетики МГУ. После этого еще три часа идут семинары, на которых слушатели интенсива учатся использовать на практике то, о чём им рассказали на лекции. Например, пишут код для линейной регрессии, применяют нейронные сети для классификации частиц или составляют алгоритм градиентного спуска. Помимо того, что студентам нужно посещать лекции и семинары, им задают объёмные домашние задания. «Из-за высокой нагрузки курс считается сложным», — говорит Сергей Широбоков.

alt
Преподаватели и участники интенсива. Фото: Лаборатория LAMBDA  

Интенсив начинается с основ машинного обучения, но желательно, чтобы студенты уже знали основы программирования на Python. Преподаватели рассказывают про необходимые для работы программы и библиотеки, такие как NumPy, SciPy и Pandas. Они могут облегчить работу над сложными задачами и сократить объём кода, который нужно написать. Слушатели узнают про про классические методы машинного обучения и про устройство нейронных сетей. Заканчивается программа уже более продвинутыми темами машинного обучения, например, студенты изучают перенос стиля, рекуррентные нейронные сети и базовые приёмы для обработки естественных языков.

Главная задача на курсе — дать физикам базовые знания в области машинного обучения и показать, где их можно применять. «Необязательно, чтобы слушатели усвоили всю информацию с первого раза и сразу же начали использовать её в работе», — считает Сергей. Идея интенсива в том, чтобы они разобрались с основами и, когда возникнет необходимость, могли вспомнить то, что изучили, или использовать приобретённые знания для того, чтобы самостоятельно разобраться с новыми методами и инструментами.

Зачем физикам машинное обучение

Большинство слушателей курса изучают физику высоких энергий — раздел физики, который исследует взаимодействия и природу элементарных частиц, но не так много людей в этой области умеют применять машинное обучение для решения своих задач.  

При этом машинное обучение может пригодиться во многих областях физики высоких энергий. Во-первых, методы ML можно применять для задач классификации, чтобы распределять события, происходящие в рамках эксперимента, по категориям.

Кроме того, в физике высоких энергий возникает задача трекинга (отслеживания), когда при помощи показаний детектора нужно понять, где конкретно пролетел объект и что это была за частица. Третье применение — это задачи детектора аномалий:  например, они возникают при поиске неполадок в оборудовании, которым пользуются физики.

Четвертый пример — оптимизация процессов. Специалистам хочется обеспечить наивысшую эффективность экспериментов при наименьшей стоимости: этого можно достичь, заранее оптимизировав различные параметры экспериментов. 

Однако многие ученые-физики не знают, как работают методы машинного обучения, и используют классические подходы, например, подбирают параметры отбора событий вручную. «Это удорожает и удлиняет их работу, добавляет в неё рутинные задачи вместо смысловых», — поясняет Сергей.

Как учатся студенты в Лондоне

Обучение за рубежом отличается от российского. Например, в западных университетах на старших курсах отводят меньше учебных часов для лекций и больше — для самостоятельной работы. Интенсив по машинному обучению проходит иначе: лекции и семинары занимают большую часть дня, к тому же необходимо выделить время на домашнюю работу.

Обычно в зарубежных университетах экзамены проходят в письменном виде, а работы студенты сдают анонимно, чтобы исключить влияние на оценку личного отношения преподавателя к студенту. Списывать домашние задания, контрольные работы или экзамены категорически запрещено. И если в России после нарушения придётся просто пересдать экзамен, то в Европе студента могут выгнать из университета без права восстановления на протяжении нескольких лет. 

Зарубежные студенты чаще всего успешно концентрируются на своей специальности, но часто не обладают широким кругозором по другим предметам. Сергей вспоминает, что знакомые, которые учились за рубежом, удивляются, откуда у него широкие познания в математике, если формально он физик. 

Восполнить подобные пробелы студентам на курсе в Имперском колледже помогает опыт Школы анализа данных. «Когда я сам студентом пришел в ШАД с минимальными знаниями в области анализа данных, мне было интересно изучать сразу широкий и разнообразный набор дисциплин. Если бы я не учился в Школе, то мое понимание возможностей машинного обучения было бы ограниченным — еще меньше я знал об их применении в физике», — говорит Широбоков. 

Больше по теме

Анализ данных

Чем занимаются стажёры-аналитики в Яндексе

«Могу попасть в любую команду, и у каждой — свои задачи»

Анализ данных

Простой гид по байесовскому А/B-тестированию на Python

Перевод материала из блога Towards Data Science

Анализ данных

Мегагрант на чистую математику

Андрей Райгородский и Янош Пах рассказывают о планах новой лаборатории МФТИ

Анализ данных

ШАД: не только для крутых математиков

Ваге Егиазарян о том, как Школа анализа данных вновь открыла для него высшую математику и путь в науку 

Анализ данных, Разработка

От C++ до теории игр: 10 лекций CS центра

Знакомьтесь с новыми языками программирования, технологиями и областями 

Анализ данных

Поступление в ШАД глазами куратора и студента

Чего ожидать на онлайн-тесте, очном этапе и собеседовании и как подготовиться к отбору

Анализ данных

Подборка каналов по машинному обучению на YouTube

Интервью с предпринимателями и исследователями, лекции из ведущих университетов и видеоподкасты о перспективах искусственного интеллекта