上周,Meta宣布了一种名为“EnCodec”的人工智能音频压缩方法,据报道,该方法可以以 64kbps 的速度压缩比MP3 格式小 10 倍的音频,而不会降低质量。Meta表示,这种技术可以显着改善低带宽连接上的语音质量,该技术也适用于音乐。

Meta 于 10 月 25 日前在一篇题为“高保真神经音频压缩”的论文中首次展示了这项技术,该论文由 Meta AI 研究人员 AlexandreDéfossez、Jade Copet、Gabriel Synnaeve 和 Yossi Adi 撰写。Meta 还在其专门针对博客上总结了这项研究。

Meta 将其方法描述为一个由三部分组成的系统,该系统经过训练,可将音频压缩到所需的目标大小。首先,编码器将未压缩的数据转换为较低帧速率的“潜在空间”表示形式。然后,“量化器”将表示压缩到目标大小,同时跟踪以后将用于重建原始信号的最重要信息。(此压缩信号是通过网络发送或保存到磁盘上的信号。最后,解码器使用单个CPU上的神经网络将压缩的数据实时转换为音频。

Meta 对鉴别器的使用被证明是创建一种尽可能多地压缩音频的方法的关键,而不会丢失信号的关键元素,使其与众不同且可识别,有损压缩的关键是识别人类无法感知的变化,因为在低比特率下不可能进行完美的重建。为此,我们使用鉴别器来提高生成样本的感知质量。鉴别器的工作是区分真实样本和重建样本。压缩模型试图生成样本,通过将重建的样本推到与原始样本在感知上更相似来欺骗鉴别器。
值得注意的是,使用神经网络进行音频压缩和解压缩远非新鲜事——尤其是对于语音压缩—— Meta 研究人员声称他们是第一批将该技术应用于 48 kHz 立体声音频(略好于 CD 的 44.1 kHz 采样率)的小组,这是在互联网上分发的音乐文件的典型特征。
至于应用程序,Meta表示,这种人工智能驱动的“音频超压缩”可以在恶劣的网络条件下支持“更快,更高质量的通话”。当然,作为元维基,研究人员还提到了EnCodec的元宇宙含义,称该技术最终可以提供“丰富的元宇宙体验,而无需重大带宽改进”。
除此之外,也许有一天我们还可以从中获取非常小的音乐音频文件。目前,Meta 的新技术仍处于研究阶段,但它指向了一个高质量音频可以使用更少带宽的未来,这对于流媒体网络负担过重的移动宽带提供商来说将是个好消息。