LipGAN是一种使用语音信号生成脸部图像的嘴唇形状的技术,当将其实际应用于视频时,在视觉伪像和运动自然度方面有些令人失望。
为了改善这一点,Wav2Lip发表了一项研究,该研究通过在鉴别器中使用多个连续帧而不是单个帧并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。
如果您转到下面的共享链接,则可以找到论文,github代码,经过预训练的模型,示例视频,甚至是在线演示,可以在其中上传和测试实际的视频和音频。
除此之外,甚至在基于深度学习的技术出现之前,就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。有各种各样的方法,但其中我预先制作了几个模板,并研究了如何根据语音信号在模板之间进行切换。
考虑到语音信号的多样性,可能很容易想到需要太多的模板,但实际上,决定音唇形状的主要是元音,而辅音的贡献却很低。元音的类型不仅相对较小,而且可以通过简单的方式从语音信号中进行识别,因此我记得,例如,只有5个元音模板和图像插值为我们提供了非常有用的结果。
当然,这已经快20年了,现在我计划应用Wav2Lip。
Rudrabha / Wav2Lip
此存储库包含“ Alip Sync专家是您在野外生成唇语所需的全部信息”的代码,已在ACM Multimedia 2020上发布。– Rudrabha / Wav2Lip