Как наши кластеры оказались в топе суперкомпьютеров

27 декабря 2021

Дмитрий Монахов

data science

Из доклада вы узнаете краткую историю кластеров для обучения нейронных сетей в Яндексе: — Зачем они нам понадобились? — Что такое современный HPC и почему это не просто объединение нескольких сотен серверов? — Способы создания HPC и почему Яндекс выбрал наиболее трудный.Поговорим о борьбе за производительность: — Почему такие кластеры, как у нас, не работают «из коробки»? — Как мы оптимизировали производительность одного узла от 30 TFlops до 110 TFlops.— Как мы масштабировали производительность на 200 узлов, получив в сумме 21.6 PFlops.Также мы подробно расскажем о том, что представляет из себя распределённое обучение, и почему это сложно, и поделимся 10 правилами, без которых GPU-кластеры никогда не окупятся и будут просто дорогой игрушкой.