上海AI实验室联合港中大(深圳)开源音频生成平台Amphion

学学看科技 2024-01-13 14:15:09

上海人工智能实验室(上海 AI 实验室)与香港中文大学(深圳)联合团队 AI 音频生成平台安菲翁(Amphion)。现已开源并提供免费商用。

其不仅具备语音及歌声合成转换、音效及音乐生成等多种能力,更可实现转换过程可视化,有效地降低了应用门槛,助力更广泛的开发者进行 AI 音频研发。

Amphion 为古希腊神话中的传奇音乐家,传说其弹奏的优美琴声可让顽石感灵。上海 AI 实验室联合团队借此为 AI 音频生成平台命名,希望通过 AI 技术的创新为音频领域注入全新的研究思路,开源开放,“声” 生不息。

集成经典模型架构,实现多项生成任务

为帮助初级开发者入门 AI 音频生成研究并使研究过程可复现,Amphion 将当前多个经典模型架构集中于统一平台,使其可实现多项音频生成任务。

歌声转换 (SVC, Singing Voice Conversion)

歌声转换是指通过 AI 技术,将一位演唱者的音色转变为另一位演唱者。该技术涉及信号处理、机器学习、深度学习等领域。

Amphion 系统集成了经典的特征提取模型用于 SVC 任务,包括经典的扩散模型、VITS 模型及 OpenAI 的 Whisper 模型等。基于扩散的架构使用双向扩张 CNN 作为后端,并支持 DDPM、DDIM、PNDM 等多种采样算法。此外,Amphion 还支持基于一致性模型的单步推理。

目前,Amphion 的特征设计已被当前业内流行的音频生成项目 So-VITS-SVC 5.0 借鉴。

文生语音(TTS, Text To Speech)

文生语音即输入文字转成相应语音的技术。当前,该模块主要采用了深度学习技术,将文本转换成自然流畅的高拟真度语音。在 TTS 任务模块,Amphion 系统集成了经典 FastSpeech2 模型、VITS 模型以及 zero-shot 语音合成技术,即 Vall-E,NaturalSpeech2。

文生音频(TTA, Text To Audio)

文生音频指将文字输入转为音乐、场景音效等特定音频的技术。Amphion 集成了当下主流的文本驱动音频生成模型架构,即基于 VAE Encoder、Decoder 和 Latent Diffusion 的文本驱动的音频生成算法。在该架构下,Latent Diffusion 扩散模型以 T5 编码后的文本为输入,根据文本的指引生成对应的音频效果。

文生音频模型或将对文化创作产生积极深远的影响,从业者或可利用此项技术,根据特定需求生成场景音效,省去从头采集环节,提升生产效率。

声码器(Vocoder)是产生高质量音频信号的重要模块。为确保所生成音频的高音质输出,Amphion 集成了目前广泛使用的神经声码器(Neural Vocoders),包括 BigVGAN、HiFi-GAN、DiffWave 等主流声码器。

技术报告显示,Amphion 中的 HiFi-GAN 声码器在多项指标上领先于当前热门开源工具。

可视化功能

与传统的音频开源工具不同,Amphion 提供了生成过程可视化及音频可视化功能。联合团队旨在通过可视化,使初级开发者者更好地理解模型的原理和细节。下图为在扩散模型中的 SVC 任务,形象地呈现出由一位歌手音色转换为另外一位歌手音色的渐变过程。

1 阅读:31

学学看科技

简介:感谢大家的关注