LipGAN은 음성 신호를 이용하여 얼굴 이미지의 입술 모양을 생성하는 기술인데, 실제로 동영상에 적용해보니 visual artifact나 움직임의 자연성 측면에서 다소 아쉬움이 있었습니다.
이를 개선하기 위해서 Discriminator에서 단일 frame이 아니라 복수개의 연속된 frame을 이용하여 temporal correlation을 고려하고, 단순히 contrastive loss가 아니라 visual quality loss라는 것을 사용함으로써 시각적 품질을 개선시키는 연구인 Wav2Lip이 발표되었습니다.
아래 공유 링크에 가 보시면 논문, github code는 물론 pre-trained model, 예제 동영상, 그리고 실제로 동영상과 음성을 업로드해서 테스트해 볼 수 있는 온라인 데모까지 있습니다.
논외로, 딥러닝 기반 기술이 나오기 전에도 캐릭터의 입술 모양을 실제 음성 신호와 매칭시키는 기술들이 있었습니다. 접근 방식은 다양했지만 그 중, 몇 가지 템플릿을 미리 만들어두고 음성 신호에 따라서 템플릿간 스위칭을 하는 방법을 연구해 본 적이 있습니다.
음성 신호의 다양성을 감안할 때, 필요 템플릿 수가 너무 많지 않겠느냐는 생각이 들 수 있지만, 사실 입술의 모양을 결정하는 것은 대부분 모음이며 자음은 기여도가 현저히 낮습니다. 모음의 종류는 상대적으로 적을 뿐 아니라 음성 신호로부터 인식하는 것도 간단한 방법으로 가능하기 때문에 예를 들어 아에이오우 5개 모음 템플릿과 이미지 보간만으로도 상당히 쓸만한 결과를 얻었던 기억이 나네요.
물론 이건 20년 가까이 된 이야기고, 이제는 Wav2Lip을 적용해 볼 계획입니다.
Rudrabha/Wav2Lip
This repository contains the codes of “A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild”, published at ACM Multimedia 2020. – Rudrabha/Wav2Lip