LipGan은 음성 신호로부터 입 모양을 생성하는 연구입니다. 가상 캐릭터의 입 애니메이션을 만들어내는데 유용하게 사용될 수 있는 기술이지만, 실제로 적용해 보면 가만히 있는 캐릭터의 입술만 움직이기 때문에 한계가 명확합니다. 실제로 인간이 대화할 때는 입술만 움직인다기 보다는 상체 움직임, 얼굴 방향, 손 동작 등 풍부한 몸 동작을 이용하게 됩니다.
아래 링크의 연구는 이러한 문제를 해결하기 위해서, 음성 신호로부터 3D 모델의 몸과 손 동작을 생성해냅니다. 구체적으로, LSTM과 같은 auto-regressive model을 이용하여 몸 자세의 시계열 분포로부터 움직임 정보를 학습합니다. 이 때 직전 몸 자세를 입력으로 다음 자세를 예측해내게 되는데, 음성으로부터 추출한 음향 특징 벡터를 함께 입력으로 줌으로써 음성 신호에 의존적인 몸 자세 시계열 데이터를 얻을 수 있습니다. 다만, 같은 말을 할 때 항상 같은 동작을 하게 되면 활용성이 떨어지기 때문에 이를 방지하기 위한 확률적 생성 모델도 함께 도입했다고 합니다.
코드도 공개되어 있긴 한데, 데이터셋 일부가 접근이 되지 않아 돌려보지는 못했습니다. 아래에 github 링크와 리뷰 기사 페이지 링크를 공유합니다.
simonalexanderson/StyleGestures
Contribute to simonalexanderson/StyleGestures development by creating an account on GitHub.
Speech-Controlled Body Animations With Deep Learning
AI techniques like LipGAN can generate lip movement animations on a face using just a speech audio file as input. This is great for automatically generating many talking animations in games. Now, in…