[๊ฐ์์ธ๊ฐ์ฐ๊ตฌํ ์ ๋์ค]
์์ฆ์ ๋ํ ๋ชจ๋ธ์ด ์ธ๋ชจ๋ฅผ ๊ฐ์ง ๊ฐ์ ์ธ๊ฐ์ผ๋ก ์งํํ๊ณ ์๋๋ฐ์. ๋ค์ํ ์ฐ๊ตฌ์ ์๋๋ค์ ์ด๋ค ์์ผ๋ก ๊ฒฐํฉํ๊ณ ํ์ฅํ ์ ์์์ง ๋ง๋ณด๊ธฐ ์ํด์ ๋ํ ๋ชจ๋ธ์ 3D ๊ฐ์ ์ธ๊ฐ์ ์ธ๋ชจ๋ฅผ ๋ถ์ธ ํํ ๋ฆฌ์ผ์ ์งํํด ๋ณด์์ต๋๋ค!
Virtual Human
์ง๋ 2020๋ , IT ์ ์ํ์ธ CES์์ ์ผ์ฑ์ด โ๋ค์จ(Neon)โ ํ๋ก์ ํธ๋ฅผ ๊ณต๊ฐํ๋ฉด์ ์ค์ ๊ฐ์ ๊ฐ์ ์ธ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์ฌ๋๋ค์ ์ด์ ๊ฐ์ ์ธ๊ฐ์ด ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋ ์ ์์ ๊ฒ์ด๋ผ๊ณ ๊ธฐ๋ํ์์ต๋๋ค.
ํ์ฌ์ ์์ ๊ฐ์ ์ธ๊ฐ๋ค์ ๋ค์ํ ๋ถ์ผ์์ ํ๋ํ๊ณ ์์ต๋๋ค. ์ฌ๋ฌ ๊ธฐ์ ๋ค์์๋ ๊ฐ์ ์ธ๊ฐ๋ค์ ๋ง๋ค์ด ๊ทธ๋ค์ ๊ธฐ์ ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๊ณ , ์ค์ ๋ก ๋งค๋ ฅ์ ์ธ ๋ชจ๋ธ์ ์ฐฝ์กฐํจ์ผ๋ก์จ ๊ฒฝ์ ์ ์ธ ํจ๊ณผ๋ฅผ ์ด๋์ด๋ด๊ธฐ๋ ํฉ๋๋ค. ๊ฐ์ ์ธ๊ฐ๋ค์ ์๊ณต๊ฐ์ ์ ์ฝ์ ๋ฒ์ด๋ ์๊ณ , ์ง์น์ง ์๊ณ ์ปจํ ์ธ ๋ฅผ ๋ฌดํํ๊ฒ ์์ฑํ ์ ์๋ค๋ ์ฅ์ ์ผ๋ก ๊ณ ๊ฐ ์๋, ๋ด์ค ์์ฑ, ๊ฐ์, ์ฑ๋ด ๋ฑ์ ๋ถ์ผ์์ ํ์ฝ์ ํ๊ณ ์์ต๋๋ค.
Open-domain Chatbot
์ฑ๋ด์ ๊ธฐ์กด์๋ ์์์ง๋ง ๊ธฐ์ ์ด ๋ฐ์ ํจ์ ๋ฐ๋ผ ์ฑ๋ด์ ์บ๋ฆญํฐ๋ฅผ ๊ฐ์ ์ธ๊ฐ์ผ๋ก ์ค์ ํ์ฌ ๊ณ ๋ํ๋ ํํ๋ก ๋ณด์ฌ์ฃผ๋ ๊ธฐ์ ๋ค์ด ๋์ค๊ณ ์์ต๋๋ค. ํ ์คํธ ๊ธฐ๋ฐ์ ์ฑ๋ด๊ณผ ๋น๊ตํ์ฌ ์บ๋ฆญํฐ๋ ๊ฐ์ ์ธ๊ฐ๊ฐ์ ์๋ฐํ๊ฐ ๋ถ์ ์ฑ๋ด์ ์ฌ์ฉ์์๊ฒ ๋ ํ๋ถํ ์ ๋ณด๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ฑ๋ด์ ์ํ๋ฅผ ์๋ฐํ์ ํ์ ์ด๋ ํ๋์ผ๋ก ๋ํ๋ด๋ฉด์ ๋ ๋ํํ๋ ๋๋์ ์ค๋๋ค.
๋ณดํต ์ฑ๋ด์ ๋ชฉ์ ์ ๋ฐ๋ผ ์คํ ๋๋ฉ์ธ(Open Domain) ์ฑ๋ด๊ณผ ๋ชฉ์ ์งํฅํ(Task-oriented) ์ฑ๋ด์ผ๋ก ๋๋๋๋ฐ, ์ฃผ์ ๊ฐ ์ ํด์ ธ ์์ง ์์ ์ผ์ ๋ํ๋ฅผ ๋ชฉ์ ์ผ๋ก ํ๋ ์ฑ๋ด์ ์คํ ๋๋ฉ์ธ ์ฑ๋ด์ผ๋ก ๋ถ๋ฅํฉ๋๋ค. ์ํ ์ฃผ๋ฌธ, ์์ฝ๊ฐ์ ์๋น์ค์๋ ๋ชฉ์ ์งํฅํ ์ฑ๋ด ์์คํ ์ ๊ตฌ์ถํ์ง๋ง, ์ฌ๋๊ฐ์ ๋ํ๋ฅผ ํ๋ ์ฑ๋ด์๋ ์คํ ๋๋ฉ์ธ ์์คํ ์ด ํ์ํฉ๋๋ค.
์ฑ๋ด์ ๊ธฐ์ ์ ์ผ๋ก ๊ตฌํํ๋ ๋ฐฉ๋ฒ์ ๋ค์ํฉ๋๋ค. ๋ชฉ์ ์งํฅํ ์ฑ๋ด์ ์ฑ๋ด ๋น๋๋ฑ์ ํตํ์ฌ NLP๋ฅผ ํตํ์ฌ ์ง๋ฌธ์ ์๋๋ฅผ ํ์ ํ๊ณ ๊ทธ์ ๋ง๋ ๋ต๋ณ์ ๋ฏธ๋ฆฌ ๊ตฌ์ถํ ๋ต๋ณ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ Retrieval ํ๋ ํํ๋ก ์ด๋ฃจ์ด์ง๋๋ค. ์คํ ๋๋ฉ์ธ ์ฑ๋ด์ ๋ค์ํ ์ฌ์ฉ์ ์ง๋ฌธ์ ์ ํด์ง ๋ต๋ณ์ผ๋ก๋ ๋์ํ ์ ์๊ธฐ ๋๋ฌธ์ AI ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ์ ๋ํ ์์ง์ด ๋ง์ด ์ฌ์ฉ๋ฉ๋๋ค.
Virtual Human Chatbot
AI์ ์ฐฝ์์ ์ธ ๋ต๋ณ์ ๊ธฐ๋ํ๋ฉด์ ์ค๊ฐ๋๊ฒ ๋ํํ ์ ์๋ ๊ฐ์ ์ธ๊ฐ ์ฑ๋ด์ ๋ง๋ค์ด ๋ณด๊ฒ ์ต๋๋ค. ์ด ๊ฐ์ ์ธ๊ฐ์ ์ฌ์ฉ์์ ์ด๋ค ์ง๋ฌธ์ด๋ ์ง ๋ต๋ณ์ ํ ์ ์๊ณ , ๊ทธ์ ๋ง๋ ๋ต๋ณ์ ๋งํ ์ ์๋ ๊ธฐ๋ณธ์ ์ธ ๊ธฐ๋ฅ์ ๊ฐ์ง ์ฑ๋ด์ ๋๋ค.
์ฐ๋๋ ๊ธฐ์ ๋ค์ด ์๋ํ๋ ๊ฒ์ ๋ณด๋ ๊ฒ์ด ๋ชฉ์ ์ด๊ธฐ ๋๋ฌธ์ ์คํ๋ ๊ธฐ์ ์คํ๋ฑ์ ์ ์ ํ๊ฒ ์กฐํฉํด๋ณด๋ ค๊ณ ํฉ๋๋ค. ์ฌ์ฉํ๋ ๊ธฐ์ ์คํ์ ๋ค์ ๋ชฉ๋ก๊ณผ ๊ฐ์ต๋๋ค.
- Hugging Face Inference API
transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ ํ์ต๊ณผ ๋ฐฐํฌ๋ฅผ ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก, Inference API๋ ํ๊น ํ์ด์ค์ ๊ตฌํ๋ ๋ชจ๋ธ๋ค์ ๋ฐฐํฌ๋ ํํ์ REST API๋ก ์ ๊ณตํฉ๋๋ค. - Unreal Engine Metahuman
์ธ๋ฆฌ์ผ ์์ง์์ ์ฌ์ฉํ ์ ์๊ฒ๋ ์ ์๋ 3D ๋ชจ๋ธ ์์ ์ผ๋ก, ์ฌ๋๊ฐ์ ์ฌ์ค์ ์ธ 3D ํ๋ฆฌ์ ์บ๋ฆญํฐ์ ์์ฐ์ค๋ฝ๊ฒ ์บ๋ฆญํฐ๋ฅผ ์ ์ดํ ์ ์๋๋ก ๋๋ ํด๋ฑ์ ์ ๊ณตํฉ๋๋ค. - ๊ธฐํ Unreal Engine ์ /๋ฌด๋ฃ SDK
TTS(Text-to-Speech) ๊ธฐ๋ฅ์ ์ํ Google Speech Kit
Lipsync ์ ๋๋ฉ์ด์ ์์ฑ์ ์ํ Metahuman SDK
REST ํต์ ์ ์ํ VaRest ํ๋ฌ๊ทธ์ธ.
์ธ๋ฆฌ์ผ ์์ง์ ๋ง์ผํ๋ ์ด์ค๋ฅผ ํตํด ๋ค์ด๋ฐ์ ์ ์์ต๋๋ค.
How to
1๋จ๊ณ: huggingface API ์ด์ฉํ์ฌ ๋ํ ๋ชจ๋ธ ์ฌ์ฉํ๊ธฐ
ํ๊น ํ์ด์ค ์ฌ์ดํธ์ ๊ฐ์ ์ ํ๊ณ API๋ฅผ ์ฌ์ฉํ ์ ์๋ Access Token์ ๋ฐ๊ธ๋ฐ์ผ๋ฉด Inference API๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค. ํ๊น ํ์ด์ค๋ ์ต์ AI ๋ชจ๋ธ๋ค์ Hub๋ฅผ ํตํด ์ ๊ณตํ๊ณ ์๊ณ , ๋ํ Inference API๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ ์ฌ์ฉํ ์ ์์ต๋๋ค. ๋ฌด๋ฃ ๋ฒ์ ์ ์ฌ์ฉ๋์ด ์ ํด์ ธ ์๊ณ ์๋๊ฐ ๋๋ฆฌ์ง๋ง, ๋ฐ๋ก ๋ชจ๋ธ์ ๋ฐฐํฌํ๊ธฐ ์ํ ํ๊ฒฝ๊ณผ ์๋ฒ ๊ตฌ์ถ์ ์ํ ๋ฆฌ์์ค๋ฅผ ์ค์ฌ์ค๋๋ค.
๋ํ๋ชจ๋ธ ์ ์ ํ๊ธฐ
ํน์ ๋ชฉ์ ์ ๊ฐ์ง ๋ํ ์์ง์ด ์๋ ์คํ ๋๋ฉ์ธ์ ๋์ํ๊ธฐ ์ํด์๋ ์์ฑํ AI ๋ชจ๋ธ์ด ์ ํฉํฉ๋๋ค. ์ค๋ง์ผ๊ฒ์ดํธ์ HuLiC ํ๋ซํผ์ ํตํ์ฌ ํฌ๋ผ์ฐ๋์์ฑ์ ํตํ ๋ํ ๋ชจ๋ธ ํ๊ฐ๋ฅผ ์งํํ์๋๋ฐ, GPT-3 ์ฑ๋ด๋ณด๋ค ๋ฉํ Facebook AI(็พ ๋ฉํ AI)์์ ๋ฐํํ Blenderbot ๋ชจ๋ธ์ ํ๊ฐ ์ ์๊ฐ ๋ ๋์์ต๋๋ค.
GPT-3๋ AGI(Artificial General Intelligence)๋ฅผ ํ๊ฒ์ผ๋ก ํ ๋ชจ๋ธ์ด๊ณ Blender๋ ์ ์ ๋ ๋ํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ๋ํ์ ํนํ๋ ๋ชจ๋ธ์ด๋ผ๋ ๊ฒ์ ์ฐจ์ด๊ฐ ์์ง๋ง, ํ๊ฐ ํญ๋ชฉ ์ ๋ฐ์์ ๋์ ์ ์๋ฅผ ๋ฐ์ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
์ธ๋ถ ์ง์์ ์ด์ฉํ๋ Blenderbot2.0์ด ๋์๋๋ฐ ํ๊น ํ์ด์ค ๋ชจ๋ธ Hub์ ์์ง ๊ตฌํ์ด ์๋์ด ์์ด์ Blenderbot1.0 ๋ฒ์ ์ ์ฌ์ฉํ์ฌ ๋ํ ๋ต๋ณ์ ํ ์ ์๋ ๋ชจ๋ธ์ ์ ์ ํ์์ต๋๋ค.
Inference API ๋ง๋ค๊ธฐ
Inference API ๋ฌด๋ฃ ๋ฒ์ ์ผ๋ก๋ ์ 30k์ character token(NLP ์ฒ๋ฆฌ ๋จ์)์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. REST API ํ์์ผ๋ก ๋ค๋ฅธ ํ๋ก๊ทธ๋จ๊ณผ HTTP ํต์ ์ ์ด์ฉํ์ฌ ์์ฒญ/์๋ต์ ๋ฐ์ ์ ์์ต๋๋ค. ์ฌ์ฉ์์ ์ง๋ฌธ์ ์์ฒญ์ผ๋ก ์ฃผ๊ณ , ๋ชจ๋ธ์ Inference๋ฅผ AI๋ฅผ ๋ต๋ณ์ผ๋ก ์ฌ์ฉํ๋ ํํ์ ๋๋ค.
2๋จ๊ณ: Unreal Engine์ Metahuman ์ฌ์ฉํ๊ธฐ
์ฌ์ค๊ฐ์ด ๋๊ปด์ง๋ 3D ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋ง์ ๋ฆฌ์์ค๊ฐ ๋ค์ด๊ฐ๋ ์์ ์ ๋๋ค. ์ด๋ฐ ๋ฆฌ์์ค๋ฅผ ์ค์ฌ์ฃผ๊ธฐ ์ํด ์ธ๋ฆฌ์ผ์์ ์คํํ ๊ฒ์ด ๋ฉํํด๋จผ์ ๋๋ค. ์ฌ์ค์ ์ธ 3D ์บ๋ฆญํฐ๋ฅผ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๊ณ , ๋ฌด๋ฃ์ ๋๋ค!
๋ฉํํด๋จผ์ 3D ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ ์ฌ๋๊ฐ์ด ์์ง์ด๋ ๊ฒ์ ๋ณด๋ ค๋ฉด ์ ๋๋ฉ์ด์ ์์ ์ด ํ์ํฉ๋๋ค. ๋ฉํํด๋จผ์ ์ ๋ฐํ๊ฒ ์์ง์ผ ์ ์๋๋ก ๋ชธ๊ณผ ์ผ๊ตด์ ์ปจํธ๋กค ๋ฆฌ๊ทธ(Control Rig)๋ฅผ ์ ๊ณตํ๋๋ฐ, ์ด๋ฅผ ์๋ํ๋ ํ๋ก์ฐ๋ฅผ ๋ฐ๋ผ ์ ์ดํ ์ ์์ผ๋ฉด ์ค์๊ฐ์ผ๋ก ๋ฐ์ํ ์ ์๋ 3D ๊ฐ์ ์ธ๊ฐ์ ๋ง๋ค ์ ์์ต๋๋ค.
3๋จ๊ณ: TTS(Text-to-Speech) ๋ชจ๋ ์ฌ์ฉํ๊ธฐ
TTS๋ ์ ๋ ฅ ํ ์คํธ๋ฅผ ์ค๋์ค๋ก ๋ฐ๊ฟ์ฃผ๋ ๋ชจ๋์ ๋๋ค. blender ๋ชจ๋ธ์ ๊ฑฐ์ณ ๋์จ ๋ต๋ณ ํ ์คํธ(ํ๊น ํ์ด์ค Inference API)๋ฅผ ์ค์ ๋งํ๋ ๊ฒ์ฒ๋ผ ๋ฐ๊ฟ์ฃผ๊ธฐ ์ํด์ TTS ๋ชจ๋์ ์ฌ์ฉํฉ๋๋ค. ๊ตฌ๊ธ์ TTS API๋ฅผ ์ฌ์ฉํ๊ณ , ์ด๋ฅผ ์ธ๋ฆฌ์ผ์์ ์ฌ์ฉํ ์ ์๊ฒ ๋ง๋ SDK๋ฅผ ์ฌ์ฉํ์ฌ ๋ง๋ค์ด ๋ด ์๋ค.
4๋จ๊ณ: Lipsync ์ ์ดํ๊ธฐ
์์ฑ์ด ๋์ค๋ฉด ๊ฐ์ ์ธ๊ฐ์ ๊ทธ ์์ฑ์ ๋ง๊ฒ ์ ๋ชจ์์ ์์ฑํด์ผ ํฉ๋๋ค. ์ค์ ์ฌ๋์ด ๋งํ๋ ๊ฒ์ ๋งํ๋ ๊ฒ๊ณผ ํ์ ์ด ๋์์ ์์ฑ(?) ๋๋ ๊ฒ์ด์ง๋ง ์ง๊ธ ๋ง๋๋ ๊ฐ์ ์ธ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ๋ง๋๋ ๊ตฌ์กฐ์ด๊ธฐ ๋๋ฌธ์ ๋ต๋ณ ์์ฑ์ ๋ง๋ ์ ๋ชจ์์ ์์ฑํ ๋ค์์ ์ด๋ฅผ ๋ค์ ์ฑํฌํ๋ ์์ ์ ํฉ๋๋ค. Nvidia์์๋ ๋ฅ๋ฌ๋ ๊ธฐ์ ์ ์ด์ฉํ์ฌ 3D ๋ชจ๋ธ์ ์ผ๊ตด ์ ๋๋ฉ์ด์ ์ ์ ์ดํ๋ ๊ธฐ์ ์ ๋ฐํํ์ต๋๋ค.(audio2face) ์ด ๊ธฐ์ ์ ์ด์ฉํ์ฌ Metahuman์ ์ ๋๋ฉ์ด์ ๋ ๋ง๋ค์ด์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
ํ์ง๋ง ์ค์๊ฐ์ผ๋ก ๋์ํ๋ ๊ฒ์ด ๋ชฉ์ ์ด๊ธฐ ๋๋ฌธ์ ์ธ๋ฆฌ์ผ ๋ง์ผํ๋ ์ด์ค์ ์๋ Metahuman SDK๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. ์ด SDK๋ ์์ฑ์ ๋ฉํํด๋จผ์ ์ผ๊ตด ์ ๋๋ฉ์ด์ ์ผ๋ก ๋ง๋๋ ๊ธฐ๋ฅ์ ์ ๊ณตํ๊ณ ์ด๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ ๋๋ง ํ ์ ์๋ ์ธํฐํ์ด์ค๋ ์ ๊ณตํฉ๋๋ค. ์ด SDK๋ฅผ ์ฌ์ฉํ์ฌ ์ค์๊ฐ์ผ๋ก ์ ์ ๋ชจ์์ด ๋ฐ๋๋ ๋ชจ๋์ ์กฐํฉํด ๋ณด์์ต๋๋ค.
๊ฐ ๋จ๊ณ์ ๋ฐ๋ผ ์ ์ฒด์ ์ธ ํ๋ฆ์ ๊ทธ๋ฆผ์ผ๋ก ๊ทธ๋ ค๋ณด์๋๋ฐ์. ๊ฐ ๋ชจ๋์ ํต๊ณผํ๋ฉด์ ํ ์คํธ, ์ค๋์ค, ๋ฆฝ์ฑํฌ ์ ๋๋ฉ์ด์ ์ ๊ฐ๊ฐ ๋ง๋ค๊ณ ํตํฉ๋์ด ๊ฐ์ ์ธ๊ฐ์ ์์ง์ ๋๋ค. ๊ฐ ๋ชจ๋์ ํตํฉํ์ฌ ์ค์ ๋ก ์ฑํ ์ ์งํํด ๋ณด์์ต๋๋ค.
Demo
Blender1.0์ ๊ฐ์ฅ ์์ ๋ชจ๋ธ์ ์ด์ฉํด ๊ฐ๋จํ ํ ์คํธ๋ฅผ ํด๋ณด์์ต๋๋ค. ์ค์๊ฐ์ผ๋ก ์ธํฐ๋์ ํ ์ ์๊ณ , ์ ๋ชจ์๋ ๋ฐ์์ ๋ฐ๋ผ ์์ฐ์ค๋ฝ๊ฒ ์์ง์ ๋๋ค.
์ง์ฐ ์๊ฐ๊ณผ ์์ฐ์ค๋ฝ๊ฒ ๋ชธ์ด ์์ง์ด๋ ์ ๋๋ฉ์ด์ ์ ๋ฃ์ด์ฃผ๋ฉด ๋์ฑ ์์ฐ์ค๋ฌ์ด ๊ฐ์ ์ธ๊ฐ ์ฑ๋ด์ ๋ง๋ค ์ ์์ ๊ฒ์ ๋๋ค. ์ ํฌ๋ ๋์ฑ ์ฌ๋ ๋ต๊ฒ ๋งํ๊ณ ๊ณต๊ฐํด์ค ์ ์๋ AI๋ฅผ ๋ง๋ค๊ธฐ ์ํด์ ์ฐ๊ตฌํ๊ณ ์์ต๋๋ค.
Reference
https://www.unrealengine.com/ko/metahuman-creator
https://www.nvidia.com/ko-kr/omniverse/apps/audio2face/
https://hulic.smilegate.net/
https://huggingface.co/