От техно до симфоний: разбираемся в музыкальных ИИ-генераторах

27 декабря 2023

Текстами и изображениями от нейросетей уже никого не удивишь, чего не скажешь о музыке. Расскажем об ИИ-генераторах для создания каверов и оригинальных треков, чтобы вам было чем заняться на новогодних каникулах

Нейросети научились писать саундтреки для игр и фильмов, фоновую музыку для приложений, видеороликов на YouTube и подкастов, помогают создавать ремиксы и каверы. Билли Айлиш перепевает песни Тейлор Свифт, а Майкл Джексон зажигает с Get Lucky — и это не чей-то сон, это реальные нейросетевые эксперименты.

В 2017 году сотрудники Яндекса научили нейросеть сочинять стихи в стиле группы Nirvana. Альбом под названием Model с четырьмя песнями от нейросети опубликован на Яндекс Музыке. Сегодня нейросеть смогла бы не только придумать тексты песен, но и сгенерировать для них музыку, а после исполнить их голосом Курта Кобейна.

Как это работает?

Принцип работы тот же, что и при создании текстов и картинок: нейросеть обучается на большом количестве примеров и генерирует что-то похожее.

Есть два способа генерации музыкальных композиций:

Создание нот. Нейросеть строить музыку из нот как текст — из звуков. В результате можно получить партитуру (запись мелодии нотами), чтобы сыграть её, например, на гитаре или пианино. Или экспортировать в формат MIDI — это API для музыкальных инструментов и библиотек звуков.
Создание аудиосигналов. А еще ИИ может прямо создать мелодию, а также человеческий голос — получится песня, опера, симфония и что угодно. Можно прямо запустить в колонках или прогуляться с готовым треком в наушниках.

Какие алгоритмы пишут музыку?

В основе алгоритмов для написания музыки, как правило, лежат автокодировщики и генеративно-состязательные нейросети (GAN):

Нейросеть-автокодировщик представляет данные в упрощённом виде, то есть сжимает первоначальные данные, отбрасывая несущественную для восприятия информацию. А потом на основе сжатой информации генерирует новые композиции.
Генеративно-состязательные нейросети создают музыкальную композицию на примере загруженных в базу треков и затем пытаются отличить оригинал от сгенерированного экземпляра. Здесь задействованы две модели — генератор и дискриминатор. Первый создаёт музыку, а второй пытается определить, где сгенерированное произведение, а где оригинал. Так они соревнуются друг с другом, чтобы генеративная модель могла создавать максимально правдоподобные композиции.

Окей! А в чём преимущества создания музыки с помощью ИИ?

Просто. Для создания оригинальной композиции не нужны специальные навыки или знания в области музыки. Обычно нейросети достаточно краткого текстового запроса или изображения. Генерация занимает несколько минут.

Безопасно. В большинстве своём нейросети позволяют создавать музыку без нарушения авторских прав. Созданные треки можно использовать где угодно без хлопот с контрактами и юридическими соглашениями. Или, как в случае с Soundraw, есть простая лицензия.

Высокая степень настройки. У программ с искусственным интеллектом, таких как Landr, есть приложение, которое позволяет редактировать музыкальные клипы, добавлять вокал и даже смешивать треки между собой. В прошлом эти задачи требовали обширных знаний разных программ редактирования музыки, но благодаря мощи искусственного интеллекта всё это можно сделать в одном месте.

Доступно. Большинство платформ для генерации музыки бесплатные, работают онлайн и в режиме реального времени.

Интерфейс сервиса Mubert. Источник: https://mubert.com/

Хочу попробовать. С чего начать?

Набор онлайн-инструментов Media.io, где можно конвертировать, сжимать, редактировать аудиофайлы и повышать их качество. Вы можете удалить шумы и лишние голоса с аудиозаписи и попрактиковаться в создании собственных треков и каверов. Внимание редакции особенно привлекли функции создания музыки с нуля, генератор каверов и изменение голоса. В последнем можно изменить скорость и высоту голоса или наложить аудиофильтр — и звучать как Дональд Дак или трансформер.

Источник: https://www.media.io/lab/ai-covers/

Сервис для создания генеративной музыки Mubert берёт семплы из библиотеки звуков и создаёт бесконечный музыкальный поток по вашему запросу. Достаточно выбрать настроение, жанр, длительность будущего трека, остальное нейросеть сделает за вас. В качестве запроса может быть не только текст, но и изображение. Нейросеть анализирует загруженную картинку и исходя из её настроения генерирует подходящий по смыслу трек — воссоздаёт звуки из картинки, оживляя шедевры искусства, пейзажи, исторические события, кадры фильмов и даже фотографии из личного архива.

Онлайн-платформа Melobytes создаёт композиции по текстовому описанию, а также на основе изображений и видео. Можно скачать готовые треки и сохранить к ним ноты. Из необычного — есть возможность превратить селфи в исполнителя песни и поэкспериментировать со звучанием голоса.

Сервис Riffusion будет петь буквально всё, что вы скажете. Чтобы создать песню, нужно просто написать её будущий текст на английском в окошке для запроса и уложиться в 25 слов. Бонусом нейросеть предложит несколько аранжировок песни на выбор и нарисует обложку для вашего трека.

Генератор музыки Soundraw позволяет создавать биты, настраивать треки и даже монетизировать композиции. Доступно более 20 жанров музыки на выбор: от хип-хопа до техно. Музыку можно создать под конкретное настроение, время года или тематику: для видеоблога, путешествия или готовки. Сервис не сразу создаёт нужную аудиозапись, а предлагает список вариантов музыки. Пользователи могут монетизировать и распространять свои песни без каких-либо ограничений: Soundraw предлагает простую лицензию, которая исключает риск нарушения авторских прав.