英伟达推出新AI模型Fugatto可通过文本提示生成音频

英伟达公司于2024年11月25日宣布推出了一款新的实验性生成式AI模型——Fugatto。这款模型被描述为“声音的瑞士军刀”，能够根据文本提示生成音频或修改现有的音乐、语音和声音文件。Fugatto由来自世界各地的AI研究人员团队设计，其多口音和多语言功能得到了显著增强。

英伟达的研究员兼应用音频研究经理Rafael Valle表示：“我们希望创建一个像人类一样理解和生成声音的模型。”公司列举了一些Fugatto可能的实际应用场景。例如，音乐制作人可以利用该技术快速生成歌曲原型，并轻松编辑以尝试不同的风格、声音和乐器。此外，人们还可以使用Fugatto生成自定义语音的语言学习材料，视频游戏开发者则可以利用它创建基于玩家选择和行动变化的音效。

Fugatto不仅能够完成其预训练任务，还能通过微调结合多个独立训练的指令，如生成带有特定口音的愤怒语音或雷雨中的鸟鸣声。该模型还能够生成随时间变化的声音效果，比如雨声从远处逐渐逼近。

目前，英伟达尚未透露是否会向公众开放Fugatto。不过，这并不是第一个能够从文本提示生成声音的AI技术。Meta此前已发布了一个开源AI工具包，可以创建声音描述。谷歌也有自己的文本转音乐AI——MusicLM，用户可以通过谷歌的AI测试厨房网站访问。

参考链接:

https://www.engadget.com/ai/nvidias-new-ai-model-fugatto-can-create-audio-from-text-prompts-140017297.html

玩酷网

英伟达推出新AI模型Fugatto可通过文本提示生成音频

龙剑秀南看科技