NVidia推出了一个基于云的视频通讯平台,名为Maxine。 Maxine的特点是全面引入了AI技术,具体地说,它不是使用H.264等图像编码技术压缩和发送面部图像的方法,而是检测并发送面部标志,接收方使用GAN生成。据说与H.264相比,带宽可以减少到1/10。
大约25年前,在视频通信的早期,短暂出现了基于面部模型的视频压缩技术,但是无法为商业服务获得足够的图像质量,并且在视频通信的情况下,所需带宽并不大(因为移动很少)。到目前为止,图像的每个像素都进行了有损压缩和传输。但是,随着GAN等AI技术的发展以及Corona 19带来的视频通信需求的爆炸性增长,带宽降低再次成为重要的要求。但是,由于实时面部界标检测和视频生成所需的计算量(或能力)远高于H / W处理的H.264编码/解码,我不知道该如何处理。 (网络费用与编码/解码费用)
Maxine不仅可以传输面部图像,还可以提供其他功能。它包括近年来在AI领域出现的许多单元技术,例如检测人的轮廓和随机设置背景的功能,结合语音识别和翻译的实时多语言对话,噪声消除以及通过超分辨率提高图像质量。看到各种单元技术结合在一起形成一种服务形式总是一种愉快的体验^^