认真考虑将2020年视为在媒体压缩领域应用AI技术的第一年。快速浏览一下今年发生的四件事。
(1)下一代视频标准缺少深度学习技术
首先,在7月份完成了H.266 / VVC标准,随后是H.265 / HEVC。在标准化过程中,基于深度学习的技术在诸如块内预测和回路内滤波等各个领域提出,但最终却被排除在标准之外,这令他们感到遗憾。主要原因是性能与复杂性还不够。现在还为时过早吗?有很多故事要说。
(2)基于AI的媒体压缩标准化组织MPAI的出现
其次,一直领先于视频压缩标准的MPEG已被更高级别的组织吸收,并且实际上已经关闭,而MPEG的创始人Leonardo Chiariglione是一个新的非商业组织,称为MPAI(人工智能进行运动图像,音频和数据编码)。并开始了新的尝试以标准化基于AI的压缩技术。数十年来一直领导MPEG的MPEG负责人选择基于AI的技术本身就是下一步的事实,这一事实成为热门话题,这与在H.266 / VVC中缺乏深度学习技术的决定形成了鲜明的对比。
(3)NVidia Maxine宣布基于AI的视频通信
十月份,NVidia推出了一个基于云的视频会议平台Maxine,与使用图像压缩技术(例如H.264 / AVC)的现有视频会议系统相比,该技术可以提取面部标志,传输并在终端中创建它们。通过申请,我们宣布了视频压缩市场中现有信号处理方法与基于AI的方法之间的战争之战的开始。
(4)JPEG正式启动了一个新的基于AI的标准项目
图像标准化组织JPEG今年进行了取证,这是核实基于AI的图像压缩技术与当前最佳标准技术(JPEG-2000,HEIF)相比在性能上有何显着改进的一步。总共提交了4份提案,10月第89届JPEG会议的结果是,基于AI的图像压缩技术的性能非常出色,因此决定启动一个新的正式项目。 (分享下面的链接)
作为参考,为了创建标准,通常需要项目建议书,证据征集(性能改进验证),建议征集(选择起始技术)和核心实验(部分技术优化)。与任何人都需要良好绩效的“证据征集”不同,“征求意见书”是一项入门技术,即在众多提案中选择第一名的过程。这是可能的。
迄今为止,已经发布了各种基于AI的图像压缩技术,我不知道哪种技术组合在性能和实用性方面会是最好的。我也想知道,是否已将JPEG应用于新的标准,而JPEG已应用于全球数十亿单位。我将继续尝试F / U。