Meta выпускает генеративный ИИ для создания музыки и звуков • The Register

В среду Meta выпустила AudioCraft — набор из трех моделей искусственного интеллекта, способных автоматически создавать звук из текстовых описаний.

По мере того, как генеративные модели искусственного интеллекта, которые принимают письменные подсказки и превращают их в изображения или текст, продолжают развиваться, ученые-компьютерщики изучают возможность создания других форм медиа с использованием машинного обучения.

Аудио — сложная задача для систем искусственного интеллекта, особенно музыка, поскольку программное обеспечение должно научиться создавать последовательные шаблоны в течение нескольких минут и быть достаточно креативным, чтобы генерировать что-то запоминающееся или приятное для прослушивания.

«Типичный музыкальный трек продолжительностью несколько минут, семплированный с частотой 44,1 кГц (это стандартное качество музыкальных записей), состоит из миллионов временных шагов», — объяснили в Team Meta. Другими словами, модель, генерирующая звук, должна выводить много данных для создания удобной для человека дорожки.

«Для сравнения, текстовые генеративные модели, такие как Llama и Llama 2, содержат текст, обработанный как подслова, которые представляют всего несколько тысяч временных шагов на выборку».

Гигант Facebook предполагает, что люди будут использовать AudioCraft для экспериментов по созданию компьютерных звуков без необходимости учиться играть на каком-либо инструменте. Набор инструментов состоит из трех моделей: MusicGen, AudioGen и EnCodec.

MusicGen обучался на 20 000 часах записей, принадлежащих или лицензированных Meta, вместе с соответствующими текстовыми описаниями. AudioGen больше ориентирован на создание звуковых эффектов, чем на музыку, и был обучен на общедоступных данных. Наконец, EnCodec описывается как нейронный кодек с потерями, который может сжимать и распаковывать аудиосигналы с высокой точностью.

Мета заявила, что AudioCraft имеет «открытый исходный код», и это в некоторой степени так и есть. Программное обеспечение, необходимое для создания и обучения моделей, а также выполнения выводов, доступно по лицензии MIT с открытым исходным кодом. Код можно использовать в бесплатных (как в Freedom и Free Beer) и коммерческих приложениях, так и в исследовательских проектах.

Тем не менее, вес модели не является открытым исходным кодом. Они распространяются по лицензии Creative Commons, которая запрещает коммерческое использование. Как мы видели на примере Llama 2, всякий раз, когда Meta говорит об открытом исходном коде, проверяйте мелкий шрифт.

MusicGen и AudioGen генерируют звуки при вводе текстового запроса. Вы можете послушать короткие клипы, созданные на основе описаний «свист ветра» и «поп-танцевальный трек с запоминающимися мелодиями, тропической перкуссией и оптимистичными ритмами, идеально подходящими для пляжа» на целевой странице Meta AudioCraft здесь.

Короткие звуковые эффекты реалистичны, хотя музыкальные, на наш взгляд, не очень хороши. Они звучат как повторяющиеся и общие джинглы для плохой музыки или песен в лифте, а не как хит-синглы.

Исследователи из Meta заявили, что AudioGen, подробно описанный здесь, обучался путем преобразования необработанного звука в последовательность токенов и реконструкции входных данных путем преобразования их обратно в звук с высокой точностью. Языковая модель сопоставляет фрагменты входного текстового приглашения с аудиотокенами, чтобы изучить корреляцию между словами и звуками. MusicGen обучался с использованием аналогичного процесса на музыкальных образцах, а не на звуковых эффектах.

«Вместо того, чтобы хранить работу как непроницаемый черный ящик, открыто рассказывая о том, как мы разрабатываем эти модели, и гарантируя, что их легко использовать людям — будь то исследователи или музыкальное сообщество в целом — помогает людям понять, на что способны эти модели. делать, понимать, чего они не могут сделать, и иметь возможность реально их использовать», — утверждает команда Мета.

«В будущем генеративный ИИ может помочь людям значительно сократить время итерации, позволяя им быстрее получать обратную связь на ранних стадиях прототипирования и серого ящика — будь то крупный разработчик, создающий миры для метавселенной, музыкант (любитель, профессионал или в противном случае) работающий над своей следующей композицией, или владелец малого или среднего бизнеса, желающий повысить свой творческий потенциал».

Вы можете получить код AudioCraft здесь, а также поэкспериментировать с MusicGen здесь и опробовать его. ®

Присылайте нам новости