在视频压缩领域中,与摩尔定律(晶体管的数量每两年翻一番),1993年的MPEG-1、2003年的MPEG-4 / AVC(H.264),2013年的MPEG-H / HEVC具有相同的特征( H.265)。作为参考,为了进行图像压缩,JPEG于1992年问世,JPEG-2000于2000年问世。
但是,实际上,当前的H.265具有与1993年发布的MPEG-1非常相似的结构,基于此的图像编解码器HEIF和BPG也具有称为定向帧内预测的基于块的定向预测技术。没什么大不了的。总而言之,仅限于图像压缩,它是``通过使用已经编码的相邻像素的值来预测要编码的块,然后在使用DCT减去以集中于重要信息之后压缩剩余的值''。
在上述技术中,与人类“视觉认知特征”有关的唯一部分是DCT的频率表达。通过使对应于“面部”的低频区域和对应于“线”的高频区域中的每一个的容错性不同来执行视觉系统优化,但是即使引入定向预测技术也很少使用该容错性。
在HEVC / H.265标准化的早期阶段(大约10年前),国际标准化组织已经讨论了基于“生成”的技术。具体地说,对于“水”,“森林”和“沙”等区域,这是一项通过将生成的纹理替换为生成的纹理而不是精确的原始数据来保持30%压缩率,同时保持视觉相似性的技术。但是,那时,“水”,“森林”和“沙”中的每一个都需要不同的生成模型,并且由于缺乏通用性而没有被采用为标准。
下面的链接上的论文讨论了在图像压缩领域中使用GAN的技术。随着GAN的出现,一般纹理的生成技术已大大改善,并且有可能学习大量数据,远远超过了现有基于信号处理技术的性能。自JPEG于1992年问世以来,它可以看作是最大的范式变化(分析综合->生成),但是即使已发布显示出JPEG效率两倍以上的技术(例如JPEG-2000,HEIF,BPG等),但由于遗留的依赖性和复杂性,它仍无法进入市场。鉴于此,目前尚不清楚在未来的市场中可以使用多少基于GAN的技术(比BPG复杂10到数百倍)。