Meta 发布利用文本创作音乐的开源音频创作 AI:「可能是一种全新的类比合成器乐器」

周三,Meta发表了名为AudioCraft的开源人工智能工具,这个工具可以根据文本提示帮助用户创作音乐和声音。它允许用户完全利用生成式AI来创作音乐和声音。Meta 发布利用文本创作音乐的开源音频创作 AI:「可能是一种全新的类比合成器乐器」

Meta表示,AudioCraft包含了三个模型:AudioGen、EnCodec和MusicGen,分别应用于声音生成、编解码和音乐生成。其中,MusicGen是在Meta拥有和专门授权的2万小时音乐上进行训练的,通过文本输入生成音乐。AudioGen则可以根据文本提示创建各种声音效果,例如狗叫声或脚步声,它是在公共音效上进行训练的。Meta对EnCodec解码器进行了改进,以减少伪影的产生,使用户能够更好地处理音频,防止过度操纵音频时出现伪影问题。

艺术家和行业专家对侵犯版权的担忧引起了关注,因为机器学习软件通过识别和复制从网络上抓取的数据中的模式来工作。

Meta公司向媒体展示了使用AudioCraft创建的一些示例音频。口哨声、警笛声和嗡嗡声听起来非常自然。尽管歌曲中的吉他琴弦听起来很真实,但仍然有点不自然的感觉。

Meta只是众多结合音乐和人工智能的公司中的其中之一。谷歌今年早些时候推出了MusicLM,一个大型语言模型,可以根据文本提示生成几分钟的音乐,该模型目前仅对研究人员开放。而一首名为"AI Generated"的歌曲在病毒传播后被下架,这首歌曲包含了Drake和The Weeknd的声音。最近,一些音乐家,如Grimes,鼓励人们在AI生成的歌曲中使用自己的声音。

然而,音乐家们长期以来一直在尝试电子音频;电子舞曲和音乐节类似Ultra并不是突然出现的。但是由计算机生成的音乐经常听起来像是从现有音频中处理出来的。AudioCraft和其他生成式AI产生的音乐完全是基于文本和大量声音数据生成的。

目前,AudioCraft更适合用作电梯音乐或背景音乐,可以为环境增添氛围,而不是创造下一首流行热曲。然而,Meta相信他们的新模型可以像合成器一样引领流行音乐的新潮流,并且能够改变音乐成为流行之后的发展方向。"我们相信MusicGen有潜力成为一种新型乐器,就像合成器首次出现时一样。"该公司在其博客中表示。Meta承认,创造一个能够创作音乐的AI模型的难度,因为音频数据通常包含数百万个离散点,而不仅仅是像Llama 2这样的文本模型,只包含数千个点。

该公司表示,为了增加其训练数据的多样性,AudioCraft需要进行开源。

"我们意识到用于训练我们模型的数据集缺乏多样性。特别是在用于训练的音乐数据集中,更多的是西方风格的音乐,只包含以英文编写的音频文本和元数据。"Meta表示。"通过分享AudioCraft的代码,我们希望其他研究人员能够更容易地尝试新的方法来测试、限制或消除生成模型中潜在的偏见和误用"。

AudioCraft的开源模型可以在其GitHub页面上找到:https://github.com/facebookresearch/audiocraft

暂无评论

暂无评论...