英伟达公司于2024年11月25日宣布推出了一款新的实验性生成式AI模型——Fugatto。这款模型被描述为“声音的瑞士军刀”,能够根据文本提示生成音频或修改现有的音乐、语音和声音文件。Fugatto由来自世界各地的AI研究人员团队设计,其多口音和多语言功能得到了显著增强。
英伟达的研究员兼应用音频研究经理Rafael Valle表示:“我们希望创建一个像人类一样理解和生成声音的模型。”公司列举了一些Fugatto可能的实际应用场景。例如,音乐制作人可以利用该技术快速生成歌曲原型,并轻松编辑以尝试不同的风格、声音和乐器。此外,人们还可以使用Fugatto生成自定义语音的语言学习材料,视频游戏开发者则可以利用它创建基于玩家选择和行动变化的音效。
Fugatto不仅能够完成其预训练任务,还能通过微调结合多个独立训练的指令,如生成带有特定口音的愤怒语音或雷雨中的鸟鸣声。该模型还能够生成随时间变化的声音效果,比如雨声从远处逐渐逼近。
目前,英伟达尚未透露是否会向公众开放Fugatto。不过,这并不是第一个能够从文本提示生成声音的AI技术。Meta此前已发布了一个开源AI工具包,可以创建声音描述。谷歌也有自己的文本转音乐AI——MusicLM,用户可以通过谷歌的AI测试厨房网站访问。
参考链接:
https://www.engadget.com/ai/nvidias-new-ai-model-fugatto-can-create-audio-from-text-prompts-140017297.html