스마일게이트의 AI Media Studio 소개합니다. (1부)

[생성지능개발팀 정택현]

ㅤ

“AI 기술이 창작활동을 지원하게 되면 컨텐츠 제작, 가상인간 등 다양한 분야에서 앞으로 어떠한 변화를 이끌어 낼 수 있을까?”

“로스트아크, 크로스파이어 등 스마일게이트의 인기 IP 캐릭터를 AI 기술을 통해 일상생활에서 체험할 수 있을까?”

ㅤ

YuA (한유아) – ‘I Like That’ Teaser

ㅤ

스마일게이트에서 자체 개발한 ‘버추얼 휴먼’(가상 인간) 한유아는 YG 케이플러스와 전속계약 통해 방송, 유튜브, 화보, 공연, 광고 등 다양한 영역에서 활동을 이어가고 있습니다. (관련기사)

이러한 활동을 지원하는 스마일게이트 AI센터에서는 가상인간 컨텐츠에 독자의 몰입감을 높히기 위해 다양한 최신 기술을 연구/개발하고 있습니다. 🧪

스마일게이트 AI센터에서는 <AI Media Studio>라는 내부 프로젝트를 통해 비전, 오디오, 자연어, 멀티모달 등 여러 도메인의 다양한 연구를 진행하고 있습니다. 이러한 연구는 다양한 최신 기술들을 연구/개발할 수 있는 통합 환경의 구축과 최종적으로는 AI 기술을 통해 창작활동 지원하는 것을 주된 목표로 하고 있습니다.

본 기사인 1부에서는 <AI Media Studio> 비전 파트의 기술이 향후 여러 창작활동에서 어떻게 활용될 수 있는지, 간단한 사례와 데모 영상을 함께 소개드리고자 합니다.

ㅤ

1부 : <AI Media Studio>의 실시간 아바타 변환 기술을 소개합니다 ✨

본 장에서는 실시간으로 사용자의 표정과 움직임을 딥러닝 모델이 자동으로 인식하여, 아바타 이미지의 움직임을 생성하는 기술에 대해서 간략하게 소개드리고자 합니다.

해당 기술은 스마일게이트의 인기 IP 캐릭터를 화상회의 등에서 활용하면 재미있지 않을까? 라는 아이디어에서 개발이 시작되었고, 현재도 내부에서 열심히 연구가 진행되고 있는 기술입니다. 🔥

저희는 이러한 서비스를 실현하기 위해 생성모델 기반의 방법, 3D 모델을 활용한 방법, Audio2Face 등 다양한 접근 방법을 동시에 검토하고 있지만 본 기사에서는 생성모델 기반의 접근법만을 중점으로 다루도록 하겠습니다.

ㅤ

ㅤ

데모 영상을 살펴 보면, 얼굴의 움직임이나 각도, 눈 깜빡임, 입 모양 등의 순간적인 변화 요소도 놓치지 않고 아바타 이미지에 잘 반영되는 것을 볼 수 있습니다.

이러한 기술을 구현함에 있어 주된 목표는 별도의 모션캡처 장비와 고성능 GPU 서버를 사용하지 않고 사용자의 PC급 환경에서 이러한 실시간 서비스를 진행하는 것과 아바타 이미지를 학습없이 자유롭게 변경할 수 있는것으로 설정하였습니다.

이는, 최고의 성능이나 지표를 낼 수 있는 연구적인 성과를 달성하기 보다는 사용성과 실용성에 중심을 둔 재미있는 서비스를 개발하는것을 우선적으로 생각하였기 때문입니다.

ㅤ

이러한 기술을 개발하는 초기 단계에서는 많은 시행착오가 있었습니다.

대표적으로 하나의 생성 모델만을 사용하여 모든 서비스를 수행하고자 하니 이미지에 포함된 다양한 물체(얼굴, 장신구, 옷, 배경 등) 등에서 변환 품질이 크게 저하되는 문제점이 발생하였고, 결정적으로는 실시간 변환 과정에서 지연이 발생하여 프레임 저하 현상이 대두되었습니다.

이에, 저희는 이러한 문제를 해결하기 위해 실시간 얼굴 자동 인식 기술, 다양한 전처리 기술 그리고 얼굴 동기화 기술 등을 추가로 개발하여 품질 관련 이슈에 먼저 대응하였으며, 이후에는 가장 큰 문제가 되었던 실시간 서비스에서의 지연(latency) 문제를 집중적으로 개선하기 시작했습니다.

먼저, 화상회의 서비스는 그 특성상 고사양 GPU 서버에서 연산하는 것이 아닌 유저의 디바이스(PC)에서 연산이 가능한 수준으로 최적화/경량화 할 필요가 있었습니다. 이에, 다양한 최신 SOTA(State-of-the-art) 기술들을 추가로 연구하여 본 서비스 아키텍처에 포함된 기술들을 교체하거나 최적화하는 과정을 수행하였습니다. 이러한 과정에서 일부 모델의 경우 Quantization이나 Pruning을 통해 모델 자체의 경량화를 진행하기도 하였습니다.

또한 GPU 메모리 등 하드웨어 리소스에 대한 프로파일링을 통해 Garbage collection 등을 진행하기도 하였으며, 코드 리팩토링을 통해 알고리즘의 시간복잡도를 줄이기 위한 노력도 함께 진행하였습니다.

이러한 각고의 노력 끝에 실시간 화상회의에서 몰입감을 저하시키지 않는 수준의 변환 속도와 품질의 완성도를 보이게 되었고, 현재는 간단한 Live demo가 가능한 수준으로 발전되었습니다.

이에, 몇가지 데모 영상을 통해 독자님들께 현재까지 개발된 기술을 소개 드리고자 합니다. (데모는 최근 많은 사랑을 받고 있는 로스트아크 캐릭터들을 위주로 진행하였습니다)

ㅤ

데모 영상은 여러 가능성과 흥미로운 결과를 보이지만, 독자님들께 좋은 서비스로 다가가기 위해서는 아직 해결해야 할 문제들이 여럿 있다고 생각됩니다.

아마 한동안은 다양한 디바이스 환경에서도 동일한 성능을 재현하는지에 대한 내부 검증과 QA(Quality Assurance)를 통한 지속적인 성능 개선을 진행하게 될 것 같습니다.

다양한 추가 연구 및 지속적인 개선을 통해 가까운 시일 내에는 더욱 발전된 모습을 보여드리도록 하겠습니다.

지금까지 1부에서는 <AI Media Studio> 프로젝트에서 연구 중인 실시간 아바타 변환기술에 대해서 간략하게 설명해드렸는데요, 독자님들께서는 해당 기술을 언제 체험할 수 있을지 혹은 자세한 정보가 공개되는 시점 등이 궁금하실 수 있다고 생각됩니다.

이와 관련해서는 아직 연구 초기 단계이고, 내부의 논의 및 검토가 필요한 사항이므로 본 기사와 이어지는 2부, 3부 기사에서 새로 진행되는 사항을 업데이트 드리도록 하겠습니다.

스마일게이트 AI센터는 소개드린 비전 파트의 기술 외에도 오디오, 자연어, 멀티모달 등 여러 도메인의 다양한 연구를 진행하고 있습니다. (관련기사, 관련기사2) 이러한 연구들이 향후 게임, 컨텐츠 제작, 버츄얼 유튜버, 가상인간 컨텐츠 등의 다양한 문화산업을 지원하여 독자분들이 다양하고 재미있는 경험을 하실 수 있기를 바랍니다.

감사합니다.

ㅤ

Reference

[1] https://www.hankyung.com/it/article/2022021429391

[2] https://biz.chosun.com/international/international_general/2022/02/14/2TNET6E4NJCO5BSD6ET754A7YU/

[3] https://github.com/smilegate-ai/korean_unsmile_dataset

[4] https://hulic.smilegate.net/