苹果公司3月底出人意料地收购了位于加利福尼亚的初创公司WaveOne ,该公司开发用于视频压缩的内容感知AI算法,这表明视频信号流式传输到我们设备的方式发生了重大转变。
几十年来,视频压缩使用数学模型来减少模拟信号传输所需的带宽,重点关注帧与帧之间场景的变化部分。当20世纪70年代引入数字视频时,改进视频压缩成为主要研究重点,导致开发了许多称为编解码器的压缩算法,是“编码器-解码器”的缩写,可以压缩和解压缩数字媒体文件。
静态图像的AI压缩已取得初步成功,视频仍然更具挑战性。虽然大约每10年就会出现一个新的编解码器标准,但所有这些标准都是基于像素数学——操纵视频帧中各个像素的值,以删除对人类感知来说不重要的信息。其他数学运算减少了需要传输或存储的数据量。
人工智能编解码器经过数十年的发展,使用机器学习算法来分析和理解视频的视觉内容,识别冗余和非功能数据,并以更有效的方式压缩视频。他们使用基于学习的技术而不是手动设计的编码工具,并且可以使用不同的方式来衡量编码质量,超越传统的失真测量。
在2010年,Netflix和一家名为Harmonic的加利福尼亚公司帮助引领了一场所谓的“内容感知”编码运动。Harmonic称之为CAE,它使用AI来分析和识别视频场景中最重要的部分,并为这些部分分配更多比特以获得更好的视觉质量,同时降低场景中不太重要部分的比特率。
内容感知视频压缩针对不同的编码分辨率调整编码器,根据内容调整比特率,并调整质量得分——压缩视频与原始未压缩视频相比的感知质量。所有这些事情也可以由神经编码器完成。
然而,尽管经过了长达十年的努力,使用深度学习的完全神经视频压缩在正常情况下并未击败传统编解码器标准的最佳配置。来自第三方的评论表明,当以传统的失真指标和人类意见得分为基准时,传统的视频编码器仍然优于神经网络压缩,尤其是当传统的编码器通过AI工具得到增强时。
WaveOne在静态图像的神经网络压缩方面取得了成功。在一项比较中,一组独立用户选择WaveOne图像重建的可能性是传统编解码器的5到10倍。
WaveOne可能会在Apple的支持下继续致力于全神经视频压缩。根据WaveOne的公开研究,其神经压缩技术与现有的编解码器标准不兼容,这符合Apple的政策,即构建可无缝协同工作但由Apple专有并严格控制的产品。
人工智能和传统编解码器目前将协同工作尽管如此,该行业似乎正朝着将AI与传统编解码器相结合的方向发展,而不是依赖于完整的神经网络压缩。
例如,据其网站介绍,Vnova使用标准化的预编码下尺度和解码后上尺度,使其编码器比编码器更高效、更快。但用户需要编码器端和解码器端的软件组件。
总部位于伦敦的iSIZE公司还通过基于AI的预处理来增强传统视频编码器,以提高传统编码器的质量和比特率效率。
理论上,视频中的所有内容都必须保留。理想的编解码器会将它接收到的所有内容编码到一段内容中——而不是改变它——这就是为什么传统编码器专注于所谓的失真指标的原因。此类测量包括信噪比、结构相似性指数和峰值信噪比。所有这些都提供了压缩视频在视觉质量方面与原始视频的匹配程度的定量测量。
然而,近年来,人们越来越关注感知质量指标,这些指标考虑了人类观众如何感知压缩视频。这些指标旨在根据人类感知视频的方式来衡量压缩视频的视觉质量,而不仅仅是数学测量。毕竟,有些失真在数学上可能微不足道,但在感知上仍然很明显。因此,正在开发新的视频压缩技术,考虑失真和感知质量指标。
最近,事情正在进一步转向更面向感知的编码,根据人类感知内容而不仅仅是数学测量来改变内容中的细微细节。使用神经编码器更容易做到这一点,因为它们可以看到整个帧,而传统编码器在宏块或切片级别运行,只能看到帧的一小部分。
Apple可以使用WaveOne的技术来提高视频流效率、降低带宽成本,并在其Apple TV+平台上实现更高的分辨率和帧速率。该技术与硬件无关,可以在许多手机和笔记本电脑内置的人工智能加速器上运行。同时,虚拟宇宙一旦实现,将涉及大量的数据传输和存储。
有几家公司正在使用人工智能优化标准视频编解码器,包括Bitmovin、Beamr和NGCodec,后者现在是AMD的一部分。