Компания Meta (признана в России экстремистской и запрещена) представила нейросеть AudioCraft, генерирующую музыку на основании искусственного интеллекта. Она создает «высококачественные реалистичные звуки» на основе необработанных аудиосигналов.
В состав AudioCraft входят три модели: MusicGen, AudioGen и EnCodec. MusicGen была «обучена» на основе лицензированной музыки в течение 20 тысяч часов, она генерирует звуки на основе пользовательских запросов. По такой же схеме работает и AudioGen – только эту модель «учили» не на музыке, а на обычных звуках, вроде лая собаки или гудков автомобилей. EnCodec же «специализируется» на высоком качестве звука, например, она может «очистить» мелодию от шума – так что нейросеть AudioCraft можно использовать не только для создания треков, но и для их обработки.
Создатели AudioCraft отмечают, что музыка – один из самых сложных типов звука, так как она состоит из множества элементов: это и ноты, и инструментальные партии, и песенная структура. Обычно музыкальные нейросети используют простые методы вроде MIDI, однако в них сложно уловить нюансы и стилистические элементы. По мнению авторов AudioCraft, их продукт может стать новым типом музыкального инструмента, каким когда-то были синтезаторы. Код AudioCraft лежит в открытом доступе на GitHub: его может изучать любой желающий и предложить свои улучшения. А примеры уже сгенерированной музыки доступны на сайте AudioCraft: в разных жанрах и стилях.
Тем временем музыкальные нейросети набирают все большую популярность. Так, в июне Пол Маккартни рассказал, что он готовит к выходу последнюю песню The Beatles, которую удалось закончить при помощи технологий искусственного интеллекта. Затем появилась новость, что алгоритмы научились предсказывать хитовость композиций, основываясь на сердечных ритмах слушателей – правда, некоторые музыковеды с этим исследованием не согласились.
На данный момент самое популярное применение музыкальных нейросетей – замена голоса. В Интернете уже можно услышать, как бы звучала «Summertime Sadness» Ланы Дель Рей в исполнении Фрэнка Синатры или «За деньги да» Инстасамки в версии Адель. Пока что это носит преимущественно развлекательный характер: несмотря на разговоры о роботах-музыкантах в будущем, хиты и альбомы по-прежнему пишутся «живыми» артистами.