LipGan是一项根据语音信号创建嘴形的研究。这是一种对创建虚拟角色的嘴部动画有用的技术,但是在实际应用中,局限性很明显,因为只有站立的角色的嘴唇仍在移动。实际上,当人们进行交流时,他们会使用大量的身体动作,例如上身动作,脸部方向和手部动作,而不是仅移动嘴唇。
为了解决这个问题,下面的链接中的研究从音频信号生成了人体和手部运动的3D模型。具体来说,它使用诸如LSTM的自回归模型从身体姿势的时间序列分布中学习运动信息。此时,输入先前的身体姿势以预测下一姿势,并且可以通过提供从语音中提取的声学特征矢量作为输入来获得依赖于语音信号的身体姿势时间序列数据。然而,据说还引入了概率生成模型来防止这种情况,因为如果在说相同的单词时总是执行相同的行为,则实用性会降低。
该代码也是开放的,但是我无法运行它,因为无法访问部分数据集。我将分享github链接和下面的评论文章页面的链接。