Студент МФТИ о компьютерном зрении и красоте

Если искусственный интеллект захочет жить в нашем мире, ему будет просто необходимо уметь видеть

Студент МФТИ о компьютерном зрении и красоте

Яндекс в вузах

Мало какой термин вызывает больше недоумения, чем компьютерное зрение. Что видит компьютер, как, что он при этом понимает? Применение этой области огромно, от отмечания на фотографиях ваших друзей и родных до реалистичной графики в видеоиграх и реставрации поврежденных изображений. Карим Искаков учится на втором курсе магистратуры кафедры Анализа данных МФТИ, за плечами у него Школа анализа данных и две стажировки в Яндексе. В этом году ему предстоит защитить магистерский диплом. Мы решили расспросить Карима о возможностях компьютерного зрения, и его исследовательской работе.

Карим Искаков

Одна случайность

Я узнал про машинное обучение всего два с половиной года назад. До этого интересовался системным программированием и радиотехникой. Свой путь начал с прохождения курса «Введение в машинное обучение» на Coursera, который читают специалисты из ВШЭ и Яндекса. Получилось это очень случайно, и я этой случайности безумно рад.

Эта область поразила мое сознание. С одной стороны, это для меня идеальное сочетание: программирование плюс математика. С другой, есть большой шанс, что именно машинное обучение позволит людям создать сравнимый по мощности с интеллектом человека общий искусственный интеллект (AGI), который сильно изменит наш мир. Я очень надеюсь, что в лучшую сторону. И если AGI захочет жить в нашем физическом мире, ему просто необходимо будет уметь «видеть». Это одна из причин, почему меня так вдохновляет компьютерное зрение.

Тренировки нейросетей

Помимо учебы я работаю исследователем в Samsung AI Center. Среди прочего мы занимаемся генерацией изображений с помощью нейронных сетей и определением расположения объекта в кадре. Тема моей магистерской также связана с компьютерным зрением.

Сначала я занимался задачей super-resolution — превращением маленьких и плохих изображений в большие и хорошие. Часть моих исследований была использована в технологии Яндекса Deep HD. Сейчас я занимаюсь image inpainting. По сути это восстановление изображений, на которых недостает некоторых участков. Например, на картинах, открытках или старых бумажных фотографиях часто появляются трещины, сгибы и другие артефакты времени, которые портят впечатление от изображений. В своей работе я исследую методы, которые помогли бы машине «догадаться», что же было на этом недостающем участке изображения. Делаю я это с помощью нейронных сетей.

Обычно нейронные сети, которые решают задачу image inpainting, обучаются следующим образом: берется неиспорченное изображение, на нем случайным образом закрашиваются некоторые области и далее это изображение пропускается через нейронную сеть, которая должна угадать, что же находится за закрашенными областями. Благодаря исходнику, мы знаем правильный ответ и таким образом обучаем сеть.

Одним из недостатков существующих методов является то, что всё знание о том, как выглядят реальные изображения, нейронная сеть сохраняет в своих внутренних параметрах. В своем исследовании я предлагаю помочь сети и в качестве дополнительного входа подать похожие изображения, чтобы у нее было на что опереться. Представьте, что вам дали фотографию человека, у которого закрашен рот, и попросили его дорисовать. Вы можете обратиться к своей памяти, вспомнить, как обычно выглядит человеческий рот, и, скорее всего, у вас неплохо получится. Однако, если бы перед вами положили парочку фотографий людей, похожих на того, кого надо дорисовать, я уверен, у вас получилось бы дорисовать точнее и детальнее. Эксперименты в моих исследованиях подтвердили, что такие подсказки могут помочь не только белковым нейронным сетям (в нашей голове), но и искусственным. Об этом можно прочитать в статье на arXiv.

Красота искусственного интеллекта

Также компьютерное зрение — это очень красиво. Я всегда стараюсь найти какую-то «эстетику» в своей работе. Как бы странно это ни звучало, красота сильно мотивирует. Например, среди этих бургеров есть один, сгенерированный нейронной сетью. Какой?

Правильный ответ — первый сверху, а вовсе не четвертый, как могло показаться

Правильный ответ — первый сверху, а вовсе не четвертый, как могло показаться

Этой осенью вышла научная статья, авторы которой как раз научились генерировать такие картинки. В этой области происходят настоящие прорывы, взять хотя бы первого в мире искусственного репортера. Я собираю всю эту AI-красоту в своем Телеграм-канале.

Также виден большой прогресс в области «понимания» (perception) мира. Во многом он связан с популярностью беспилотников. Можно посмотреть красивую гифку, где показано, как люди научились по одному только изображению с высокой точностью понимать, где в пространстве находятся автомобили.

А в компании NVIDIA вообще сделали видеоигру, в которой весь рендеринг происходит с помощью нейронной сети. Верю в то, что в будущем фотореалистичность в видеоиграх будет достигаться с помощью нейросеток. Пока же сети могут генерировать мемы.

Больше по теме

Яндекс в вузах

Студенческий практикум в центре «Сириус»: ожидания и реальность

Как команды со всей России за две недели справились с созданием полноценных проектов?

Яндекс в вузах

Как устроена программа научного руководства в Яндексе

Рассказывает студент МФТИ Федор Моисеев 

Яндекс в вузах

Специалисты по анализу данных находят общий язык с физиками из ЦЕРН

Рассказ сотрудника лаборатории методов анализа больших данных LAMBDA об опыте работы на Большом адронном коллайдере 

Яндекс в вузах

За что дают стипендию имени Ильи Сегаловича?

3D-моделирование, солнечные течения и паттерн майнинг

Яндекс в вузах

Совместная траектория УрФу и Школы анализа данных

Совместная траектория УрФу и Школы анализа данных Яндекса «Анализ данных» работает в рамках магистерской программы «Современные проблемы компьютерных наук» с сентября 2017 года

Яндекс в вузах

Бакалаврские и магистерские программы Яндекса и СПбГУ

Сотрудничество Яндекса и СПбГУ началось в 2014 году на уровне магистратуры. С 2018 года Яндекс активно участвует в подготовке бакалавров в сотрудничестве с лабораторией им. П. Л.  Чебышева СПбГУ

Яндекс в вузах

Совместная специальность Яндекса и БГУ

Обучение в практико-ориентированной магистратуре по специальности «Алгоритмы и системы обработки больших объемов информации»