机器的心脏被释放了。
机器之心编辑部
联合视频专家组JVET官网显示,字节跳动在美国的R&D团队在今年年初发起了一项视频压缩技术提案,命名为DAM(深度过滤)。
带有自适应模型选择).与最新的H.266/VVC标准相比,DAM可以显著提高视频编码性能。
可以实现10.28%的性能增益。两个色度信号u和v的性能增益也分别达到了28.22%和28.22%。
27.97%。这是业界公开的单一智能编码工具的最佳性能增益。
视频编解码是视频应用的底层核心技术,用于对图像进行压缩和数字编码,从而以尽可能小的带宽传输尽可能高质量的视频数据。H.264
H.265/HEVC是一个广泛使用的视频编码和解码标准。在相同的视频质量下,视频音量可以降低一半。H.265尚未完全普及,新一代标准。
与H.265相比,H.266/VVC将视频减少了一半
这不是视频编码技术的终点。
今年年初,字节跳动先进视频团队(AVG)向联合视频专家组JVET发起了JVET-U0068的技术方案,可在为视频压缩的三个颜色分量(Y, U,.使用
v)分别实现了约10%、28%和28%的性能增益,是业界公开的单一智能编码工具的最佳性能增益。在优化压缩质量的同时,视频音量优于H.266
最新标准至少可以降低13%。就实际效果而言,如果应用新技术,相比目前主流的H.264标准,我们只需要同样质量的视频的22%左右。
带宽和存储空间。
这项技术被称为DAM(Deep-filtering with Adaptive Model-.
Selection),它是深度学习技术为减少视频压缩失真而构建的滤波器。
主干是基于残差单元叠加的深度卷积神经网络,辅以自适应模型选择,最大程度地适应复杂的自然视频。这项技术是由字节跳动的AVG开发的。
加州R&D团队成员来自高通、英特尔、微软等巨头以及国内外众多顶尖大学。
让我们从下面的例子来比较H.264和H.266 DAM的视频压缩效果:
可以看出,在相同压缩比下,H.266 DAM编码的压缩质量远优于H.264。
除了视频压缩质量提升之外,应用 DAM 技术可以比H.266再缩小 13% 的数据体积,
以下图片来自国际标准组织的测试视频。其中,图片(左)为每像素12字节的原始图片;图(中)每像素使用VTM11.0压缩(qp=42)。
0.00216字节,峰值信噪比27.78dB;图(右)使用VTM11.0 DAM(qp=42),每像素0.00184字节,峰值信噪比。
28.02dB .
对比图(中)和图(右)可以看出,应用DAM技术后,图(右)的压缩比更高,峰值信噪比(客观质量)更好,主观质量更好。
1.左:原图,12bpp,中:VTM-11.0压缩,QP42,0.00216bpp,27.78dB,右:VTM-11.0 DAM,QP42,
0.00184bpp,28.02dB
技术细节
DAM 的构建方法
提案JVET-U0068中引入的DAM是字节跳动AVG公司先前提案JVET-T0088的扩展版本。
在具体实现中,为了降低深度网络的训练难度,DAM算法采用了残差单元.
作为一个基本模块,并堆叠几次以构建最终的网络。所谓残差单元指的是引入跳层连接,让网络关注不断变化的残余。来处理不同类型的。
内容,新技术针对不同类型的slice 和质量级别训练不同网络。此外,还引入了一些新特性来提高编码性能。
图 1:(a)是卷积神经网络滤波器的架构,M 代表特征图的数量,N 代表特征图的空间分辨率;(b)是(a)中残差块的结构。
DAM 滤波方法的主干如上图 1 所示,为了增加感受野,降低复杂度,此方法包含一个步幅为 2
的卷积层,该层将特征图的空间分辨率在水平方向和垂直方向都降低到输入大小的一半,这一层输出的特征图会经过若干顺序堆叠的残差单元。最后一个卷积层以最后一个残差单元的特征图作为输入,输出
4 个子特征图。最后,shuffle 层会生成空间分辨率与输入相同的滤波图像。
与此架构相关的其他细节如下:
* 对于所有卷积层,使用 3x3 的卷积核。对于内部卷积层,特征图数量设置为 128。对于激活函数,使用 PReLU;
* 针对不同 slice 类型训练不同的模型;
* 当为 intra slice 训练卷积神经网络滤波器时,预测和分块信息也被输入网络。
新特性:自适应模型选择
在 JVET-T0088 的卷积神经网络结构基础上,JVET-U0068 引入了以下几种新特性:
* 首先,每个 slice 或 CTU 单元可以决定是否使用基于卷积神经网络的滤波器;
* 其次,当某个 slice 或者 CTU 单元确定使用基于卷积神经网络的滤波器时,可以进一步确定使用三个候选模型中的哪个模型。为此目的,使用 {17,22,27,32,37,42} 中的 QP 数值训练不同模型。将编码当前 slice 或 CTU 的 QP 记作 q,那么候选模型由针对 {q,q-5,q-10} 训练的三个模型构成。选择过程基于率失真代价函数,然后将相关模式表征信息写入码流;
* 第三,基于卷积神经网络的滤波器在所有层都被启用;
* 最后,现有滤波器中的去块滤波和 SAO 被关掉,而 ALF(和 CCALF)则被置于基于卷积神经网络滤波器后面。
在线推断及训练
推断过程中使用 PyTorch 在 VTM 中执行 DAM 深度学习的在线推断,下表 1 是根据 JVET 建议给出的网络信息:
表 1。
训练过程中以 PyTorch 为训练平台,采用 DIV2K 和 BVI-DVC 数据集,分别训练针对 intra slice 和 inter slice
的卷积神经网络滤波器,并且训练不同的模型以适应不同的 QP 点,训练阶段的网络信息根据 JVET 建议列于下表 2 中。
注意,当训练 inter slice 滤波器时,预测信息也被用作输入,而在 JVET-T0088 中,它仅用于 intra slice。
表 2。
下图 2 给出了训练集和验证集损失函数的一个示例。
图 2。
实验结果:三个颜色分量(亮度 Y 和色度 Cb、Cr)性能增益显著
考虑到 VTM-9.0 和 VTM-10.0 之间的微小差异,并根据 JVET 定义的常规测试条件,在 VTM-9.0 上测试了字节跳动 AVG 的 DAM
技术提案,测试结果如下表 3 和表 4 所示。
结果显示,在 RA 构型下,Y、Cb 和 Cr 的 BD-rate 节省分别为 10.28%、28.22% 和 27.97%;在 AI 配置下,对 Y、Cb
和 Cr 分别可带来 8.33%、23.11% 和 23.55% 的 BD-rate 节省。
表 3:AVG 提案在 VTM9.0(RA)上的性能表现。
表 4:AVG 提案在 VTM9.0(AI)上的性能表现。
总结
实测证明,字节跳动 AVG 的这项视频编码技术创新,可以让视频的数据体积相比 H.266 最新国际标准再缩小
13%。对视频服务商来说,存储和带宽成本将显著降低;对用户来说,在网速较慢的情况下也可以流畅观看高清视频。
但正如前文所述,早在 2013年正式通过的
H.265,如今还没有完全普及。一方面,高昂的专利授权费用导致生产硬件设备和生产内容的厂商无法承担,用户也只能买并不支持 H.265
标准的设备;另一方面,H.265 的专利收费很复杂,想要使用 H.265 得分别多次缴专利费。因此,目前最常见的还是 18 年前的 H.264 标准。
尽管 H.266 新一代标准的推广还有很长的路要走,字节跳动 AVG 的技术探索并不会停止,其研究成果也会通过自主研发的 BVC
编码器投入应用,为抖音、西瓜视频、今日头条等 App 的视频类内容处理,以及云计算、云游戏等基础架构领域创造更高清画质、更流畅播放的视频体验。