[์ ํ์ฐ๊ตฌํ ์ฌํ๋งค]
Open AI์ GPT-3, NAVER์ Hyper CLOVA ์ ๊ฐ์ ์ด ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ด ๊ณต๊ฐ๋๋ฉด์ ์ต๊ทผ์๋ ์ด๋ฅผ ํ์ฉํ ๋ค์ํ ์ฌ๋ก ๋ฐ ์๋น์ค๋ค๋ ๋ง์ด ์์์ ธ ๋์ค๊ณ ์์ต๋๋ค. ์ด์ ๊ฐ์ ์ด ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ๋ค์ ๋ชจ๋ gradient ์ ๋ฐ์ดํธ ์์ด๋ ์๋ก์ด Task(=์์ )์ ๊ด๋ จ๋ ๊ฐ๋จํ ์์๋ค์ ์ ์ํด์ฃผ๋ ๊ฒ ๋ง์ผ๋ก๋ ์๋ก์ด Task๋ฅผ ์ํํ๋ ๋ฐฉ๋ฒ์ ์ค์ค๋ก ๋ฐฐ์ธ ์ ์๋ค๋ ๋๋ผ์ด ๋ฅ๋ ฅ์ ๊ฐ๊ณ ์์ต๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์ธ์ด ๋ชจ๋ธ๋ค์ ํ ์คํธ ๊ธฐ๋ฐ์ Task๋ค์ ์ ์ํํ๋๋ฐ ๋ฐํด, Visual Task์ ๊ฐ์ ํ ์คํธ ์ด์ธ์ Task๋ค์ ๋ํด์๋ ์ค๋ ฅ์ ์ถฉ๋ถํ ๋ฐํํ์ง ๋ชปํ๊ณ ์์ต๋๋ค.
์ต๊ทผ DeepMind์์๋ ์๊ธฐ ํ๊ท ์ธ์ด๋ชจ๋ธ ๋์์ผ๋ก Visual Task๋ฅผ ์ํํ ์ ์๋ Frozen์ด๋ ๋ฐฉ๋ฒ์ ๋
ผ๋ฌธ์ ํตํด ๊ณต๊ฐํ์์ต๋๋ค. ํด๋น ๋
ผ๋ฌธ์์๋ few-shot learning ๋ฅ๋ ฅ์ “multi-modal”๋ก ์ด์ ํ๋ ๊ฐ๋จํ๊ณ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค. ์ด๋ฏธ์ง-์บก์
ํ์ด ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ฐ์์ ์ธ ์๋ฒ ๋ฉ์ ์ํ์ค๋ก ๋ํ๋ผ์ ์๋๋ก vision encoder๋ฅผ ํ์ตํจ์ผ๋ก์จ pre-trained, frozen ์ธ์ด ๋ชจ๋ธ์ด ์ด prefix ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ์ ์ ํ ์บก์
์ ์์ฑ ํ ์ ์๋๋ก ํ์์ต๋๋ค.
๊ทธ๋ฆผ [1]์ ๋ ผ๋ฌธ์์ ์๊ฐํ๋ vision encoder๊ฐ ํฌํจ๋ ์ ์ฒด ์์คํ ๊ตฌ์กฐ์ ๋๋ค. ๊ทธ๋ฆผ์์ 2๊ฐ์ Language Model์ ๋งค๊ฐ๋ณ์๋ ๊ณ ์ ๋์ด ์๊ณ ๋ณํ์ง ์์ Frozen ์ํ์ ๋๋ค. Vision Encoder๋ ์ผ์ชฝ์ ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ ์ ๋ณด์, ์ค๋ฅธ์ชฝ ์บก์ ์ ์ผ๋ถ ์ธ์ฝ๋ฉ ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ Language Model(Self Attention Layers) ์ด ์บก์ ์ ๋จ์ ๋ถ๋ถ์ ์์ฑ ํ ์ ์๊ฒ ํ์ต์ ํ๋๋ก ๋์์ต๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ๊ฐ์ค์น๋ ๊ณ ์ ๋ ์ํ๋ก ์ ์ง๋์ง๋ง gradient ๋ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ์ฒ์๋ถํฐ ํ๋ จํ๊ธฐ ์ํด ์ด๋ฅผ ํตํด ์ญ ์ ํ๋ฉ๋๋ค.
์์ ๊ตฌ์กฐ๋ฅผ ์ด์ฉํ์ฌ ํ์ต ์๋ฃ ๋ Frozen์ ๋ณธ ๋ ผ๋ฌธ์์๋ multimodal few-shot learner ๋ผ๊ณ ๋ถ๋ฅด๊ณ ์์ต๋๋ค. Frozen์ ๋จ์ผ ์ด๋ฏธ์ง-์บก์ ์์ผ๋ก ํ์ต๋์ง๋ง ์ผ๋จ ํ์ต๋๋ฉด ์ฌ๋ฌ ์ด๋ฏธ์ง์ ํ ์คํธ๋ก ์ ๋ ฌ๋ ์ธํธ์๋ ํจ๊ณผ์ ์ผ๋ก ๋์ํ ์ ์์ต๋๋ค. ๋ฟ๋ง ์๋๋ผ, ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ์ ํ์ฉํ์ฌ VQA(์๊ฐ์ ์ง๋ฌธ ๋ต๋ณ)์ ๊ฐ์ด ํ๋ จ๋์ง ์์ multi-modal tasks์์๋ ์๋ก์ด ์์ ์ ํ์ตํ๋ ๋๋ผ์ด ๋ฅ๋ ฅ์ ๊ฐ๊ณ ์์ต๋๋ค.ย ๋ ผ๋ฌธ์์๋ multi-modal task์์์ frozen์ few-shot learning ์ฑ๋ฅ์ ํฅ์ํ๊ธฐ ์ํ์ฌ ์ฌ๋ฌ Task ๋์์ผ๋ก shot ๋ค์ ๋น๊ตํ๋ฉด์ ์คํ์ ์งํํ์์ต๋๋ค.
์๋ ๊ทธ๋ฆผ [3] ์ Frozen ๋ชจ๋ธ์ ์์ ์คํ์ ํตํด ์ป์ ์ต์ ์ ์ธํ
์ ์ ์ฉํ ํ ํ
์คํธ ๋ฐ์ดํฐ ๋์ ํ
์คํธํ ๊ฒฐ๊ณผ์
๋๋ค. ๊ทธ๋ฆผ์ ์ฒซ๋ฒ์งธ ๋ผ์ธ์ ๋ณด๋ฉด, 2๊ฐ์ ์ด๋ฏธ์ง์ ์บก์
์ ์์๋ก ๋ฃ๊ณ ๋ง์ง๋ง์ ์ด๋ฏธ์ง์ “ํด๋น ์ฌ๋์ ์ด๋ค ์ฌ๋์ธ์ง”๋ ํ
์คํธ ์ ๋ณด๋ฅผ ์ ์์ด๋ก ํด์ฃผ๋ฉด, ๋ชจ๋ธ์ ์ต์ข
๊ฒ์ ์ง๋ฆฐ “๊ณตํฌ”emoji๋ฅผ ์์ฑํด์ค๋๋ค. ๋๋ฒ์งธ ๋ผ์ธ๋ ๋น์ทํ ํ์์ ์์๋ฅผ ๋ฃ์ด์ฃผ๋๋ฐ์, ์ฌ๊ธฐ์ ์ด๋ฏธ์ง ์ ๋ณด๋ก๋ “๋นํ๊ธฐ”๋ผ๋ ์ ๋ณด๋ง ์ป์ ์ ์์ง๋ง ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ค์ ์ง์๋ ํฌํจ๋์ด ์์ด ์ต์ข
๋ชจ๋ธ์ ๋นํ๊ธฐ๋ฅผ ๋ฐ๋ช
ํ ์ฌ๋์ ๋ํ์ฌ “๋ผ์ดํธ ํ์ ”๋ผ๋ ๋ต๋ณ์ ์์ฑํด์ค ์๊ฐ ์์ต๋๋ค. vision ์ ๋ณด์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ค์ ์ง์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์ด์ ๊ฐ์ Task๋ฅผ ์ํ ํ ์ ์๋ ๊ฒ Frozen์ ๋งค๋ ฅ ํฌ์ธํธ๋ผ๊ณ ํ ์ ์์ต๋๋ค.
Frozen์ ๊ฐ๋ฐํ๋ ๋ชฉํ๋ ํน์ Task์์ ์ฑ๋ฅ์ ์ต๋ํํ๋ ๊ฒ์ด ์๋์๊ธฐ์ ์์
์ ์ํํจ์ ์์ด์ ํ์ํ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ง๋ง, few-shot์ผ๋ก ํ์ตํ๋ ํน์ Task์ ๋ํ SOTA์ ์ฑ๋ฅ๊ณผ๋ ์์ง ์ฐจ์ด๊ฐ ์์ต๋๋ค. ํ์ง๋ง ๋ฒค์น๋งํฌ์์ ์ ๊ณตํ๋ ํ์ํ ๊ต์ก ์์๋ฅผ ๋ค ๋ณด์ง ์๊ณ ๋ ๋ค์ํ Task๋ค์์์ ์ฑ๋ฅ์ด ๊ธฐ์ค์ ์ ํจ์ฌ ๋ฅ๊ฐํ๊ณ ์์ต๋๋ค. ๋ํ ๊ทธ๋ฆผ [3]์์ ๋ณผ ์ ์๋ฏ์ด Frozen์ ์ข
์ข
๋งค๋ ฅ์ ์ธ ์ถ๋ ฅ์ ์์ฑํจ์ผ๋ก์จ, ์ด๋ ์ด๋ฏธ์ง์ ๋ํ์ฌ ์ง์ ์ผ๋ก ๊ฐ๋ฐฉ์ ์ด๊ณ ์ ์ฝ์ด ์๋ ์ธ์ด์ ํด์์ ํ๊ธฐ ์ํ ์์คํ
์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
์ง๊ธ๊น์ง Frozen๋ฅผ ์ด์ฉํ์ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ multimodal few-shot learning ์์คํ ์ผ๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ ์๊ฐํด๋๋ ธ์ต๋๋ค. ์ข ๋ ์์ธํ ์ฌํญ์ ๋ ผ๋ฌธ์ ์ฐธ์กฐํ๋ฉด ๋ฉ๋๋ค.
Reference
[1] Tsimpoukelli, M., Menick, J., Cabi, S., Eslami, S. M., Vinyals, O., & Hill, F. (2021). Multimodal Few-Shot Learning with Frozen Language Models. arXiv preprint arXiv:2106.13884.
[2] https://www.youtube.com/watch?v=FYA_jwPpXi0