[๊ฐ์์๋ช ์ฐ๊ตฌํ ์์น๋ฌด ์ฃผ์]
ChatGPT์ ์๋๊ฐ ๋๋ํ๊ณ ์์ต๋๋ค. AI ์ ๊ณ๋ฅผ ๋น๋กฏํ ๋ค์ํ ์ฐ์ ๊ณผ ๋ถ์ผ์์๋ ChatGPT์ ์ฐ์์ฑ๊ณผ ์ค์ฉ์ฑ์ด ์ธ์ ๋์ด, ๋ง์ ๊ธฐ์ ๋ค์ด ChatGPT์ ์ ์ฉ์ ์ถ์งํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ์ถ์ธ๋ OpenAI์ ๊ฐ์ ์ฃผ์ ๊ธฐ์ ๋ค ๋ฟ๋ง ์๋๋ผ Google, Meta์ ๊ฐ์ ๋๊ท๋ชจ ๊ธฐ์ ๋ค๋ ์์ฑํ AI ์ฑ๋ด์ ์ฃผ๋ํ๋ ์ญํ ์ ๋งก๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค.
์ด๋ฐ ์ํฉ์์ ๊ธฐ์ ๋ค์ ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์์ ํจ์จ์ ์ธ ๋น์ฉ ์ง์ถ์ ์ํ ๊ณ ์ฌ์ ํ๊ณ ์์ผ๋ฉฐ ํด๊ฒฐ์ฑ ์ผ๋ก ๋ชจ๋ธ์ ํ์งํ(ํ๊ธํ) ํน์ ๊ธฐ์ ๋ค์ ๊ณ ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์์ฒด ๋ง์ถคํ ๋ํ ์ธ์ด ๋ชจ๋ธ (LLMs)์ ๊ฐ๋ฐ์ ์ ๊ทน์ ์ผ๋ก ๊ฒํ ํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ํจ๋ฌ๋ค์์ ์ ํ์ ๋น๋จ ์ธ์ด๋ชจ๋ธ ๋ฟ ์๋๋ผ ์ด๋ฏธ์ง, ์์ฑ์์ฑ ๋ถ์ผ์๋ ์ ์ฉ์ด ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ๊ฐ์ํํ๊ธฐ ์ํด ๋ช ๊ฐ์ง foundation model(๋ผ๋ง, ์ํ์นด, ๋น์ฟ ๋ ๋ฑ)์ด ์คํ ์์ค๋ก ์ถ์๋์์ผ๋ฉฐ, ๊ธฐ์ ๋ค์ ์๊ตฌ ์ฌํญ์ ๋ถํฉํ๋ ๋ง์ถคํ ์ธ์ด ๋ชจ๋ธ๋ก ๋น์ฆ๋์ค๋ฅผ ๊ฐํํ ์ ์๋ ๊ธฐํ๋ฅผ ์ ๊ณตํ ๊ฒ์ ๋๋ค. ์ด๋ฒ ๊ธ์์๋ ์์ ์ฐ๊ตฌ๋ ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ์ ์ดํด๋ณด๊ณ ์ด๋ฅผ ํตํด ์ป์ ์ ์๋ ์ฅ์ ์ ๋ํด์ ์์๋ณด๊ฒ ์ต๋๋ค.
๋๋ฉ์ธ ํนํ ๋ชจ๋ธ์ ๋ํ ์ฐ๊ตฌ๋ ํ๋ฐํ๊ฒ ์งํ๋๊ณ ์์ผ๋ฉฐ ์๋ฌผ์ํ, ๊ธ์ต, ๋ฒํ, ์์ฐ ๊ณผํ ๋ฑ์ ๋ถ์ผ์์ ๋ง์ ๋ฐ์ ์ด ์ด๋ฃจ์ด์ก์ต๋๋ค. ํนํ ์๋ฌผ์ํ ๋ถ์ผ๋ BioASQ์ ๊ฐ์ ์ง์์๋ต ์ฑ๋ฆฐ์ง๋ฅผ ๊ฐ์ตํ๋ ๋ฑ ๊ธฐ๊ณํ์ต ์ ์ฉ์ ์์ฅ์๊ณ ์์ต๋๋ค. ๋ํ ์ง์์ ์ธ ๊ณผํ์ ๋ฐ์ ์ผ๋ก ๋งค์ผ ์๋ก์ด ์๋ฌผ์ํ ๋ ผ๋ฌธ์ด ๋ฐํ๋๊ธฐ ๋๋ฌธ์ ๋ค๋์ ์๋ฌผ์ํ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๊ธฐ ์ฉ์ดํฉ๋๋ค. ์ด๋ฅผ ํ์ฉํ์ฌ ๋ค์ ์๋ฌผ์ํ ๋ฌธํ์ ๋ํ ํ ์คํธ ๋ง์ด๋๊ณผ ์ง์ ์ถ์ถ ๋ฑ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ฉด ์๋ก์ด ์ฝ๋ฌผ, ์์ ์น๋ฃ, ๋ณ๋ฆฌํ ์ฐ๊ตฌ ๋ฑ์ ๊ฐ๋ฐ์ ์ค์ํ ์ญํ ์ ํ ์ ์์์ด ์ ์ฆ๋์์ต๋๋ค. ๋๋ฆฌ ์๋ ค์ง ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ๋ก๋ BioBERT์ PubmedBERT ๋ฑ์ด ์์ต๋๋ค. ์ด ๋ชจ๋ธ๋ค์ ํด๋น ๋๋ฉ์ธ์ ๋ฐ์ดํฐ๋ง์ ํ์ต์ ์ฌ์ฉํ์๋์ง, ์๋๋ฉด ๋ฒ์ฉ์ ์ธ ๋ฐ์ดํฐ์ ํ์ต์ ์ฌ์ฉํ๊ณ ์ถ๊ฐ๋ก ํด๋น ๋๋ฉ์ธ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์๋์ง์ ๋ฐ๋ผ ์ฐจ์ด๊ฐ ์์ง๋ง ๊ณตํต์ ์ผ๋ก ์ง์ ์๋ต, ๊ฐ์ฒด๋ช ์ธ์, ๊ด๊ณ ์ถ์ถ ๋ฑ ์ฃผ์ด์ง ์ ๋ณด์์ ์ ๋ต์ ํ๋ณํ๋ ์์ฐ์ด ์ดํด ํ์คํฌ์์ ๋ฒ์ฉ ๋ชฉ์ ์ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ต๊ทผ์๋ ํ๋ณ ๋ชจ๋ธ์ด ์๋ ๋ชจ๋ธ์ ์์ฑ ๋ฅ๋ ฅ์ผ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ GPT ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ์ฐ๊ตฌ๋ ์งํ๋๊ณ ์์ต๋๋ค. PubMed ๋ฑ์ ์๋ก๋ ๋ ผ๋ฌธ์ GPT๋ก ํ์ต์ํจ BioGPT๋ ๊ธฐ์กด์ ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ์ ์ํํ๋ ์ฑ๋ฅ์ ๋ณด์๋ค๊ณ ํฉ๋๋ค. ์ด๋ฌํ ๋๋ฉ์ธ ํนํ ์์ฑ ๋ชจ๋ธ์ ๋ฐ์ดํฐ ์ฆ๊ฐ๊ธฐ๋ฒ์๋ ์ ์ฉํฉ๋๋ค. ์ต๊ทผ์ ๋ฐํ๋ Dr.LLama[4] ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์๋๋ผ๋ ๋๋ฉ์ธ ํนํ ๋ฐ ์ ๋ฌธ ์ง์์ด ๋ฐ์๋ ์ธ์ด ๋ชจ๋ธ์ด ๋ฐ์ดํฐ ์ฆ๊ฐ์ ๋์์ด ๋๋ค๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๊ฐ ์๊ฐ๋์์ต๋๋ค. ํด๋น ์ฐ๊ตฌ์์๋ ์ ๋ฌธ ์ง์์ด ๋ฐ์๋์ง ์์ ์์ฑ ๋ชจ๋ธ์ด ์์ฑํ ๋ฌธ์ฅ์ผ๋ก ๋ชจ๋ธ์ ์ถ๊ฐ ํ์ต์ํค๋ฉด ์คํ๋ ค ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ฐ๋ฉด, ์ ๋ฌธ ์ง์์ด ๋ฐ์๋ ๋ชจ๋ธ์ด ์์ฑํ ๋ฌธ์ฅ์ผ๋ก ํ์ตํ๋ฉด ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ ํ์ธํ์๋ค๊ณ ์ฃผ์ฅํ์ต๋๋ค. ์ด๋ฌํ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ค์ ์์ ์ธ๊ธํ ๋ฌธ์ ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํ ๋จ์๊ฐ ๋ ๊ฒ์ ๋๋ค. ํ์ฌ์ ์ ๋ฌธ ์ง์์ด ๋ฐ์๋ ์์ฒด์ ์ผ๋ก ํ์ตํ ์ธ์ด ๋ชจ๋ธ์ ํ ๊ธฐ์ ๊ณผ ๋ฐ์ดํฐ๋ฅผ ๊ณต์ ํ์ง ์๊ณ ๋ ์์ฒด ๋ฆฌ์์ค๋ฅผ ํ์ฉํ์ฌ ๊ธฐ์ ์ ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์์ ๋น์ฉ ํจ์จ์ฑ์ ํด๊ฒฐํ ์ ์์ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
์์ ์ด์ผ๊ธฐ๋ค์ ์ข ํฉํ์ ๋, ์กฐ์ง๋ค์ด ๋ง์ถคํ ์ธ์ด ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ฐ ๋ํ ๊ด์ฌ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ํต์ , ๋ฐ์ดํฐ ๊ฐ์ธ ์ ๋ณด ๋ณดํธ ๋ฐ ๋น์ฉ ํจ์จ์ฑ์ ๋ํ ์ค์์ฑ์ด ๋์์ง๊ณ ์์ต๋๋ค. ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ์ ์ฑํํจ์ผ๋ก์จ ๊ธฐ์ ์ ์ฑ๋ฅ ํฅ์, ๋ง์ถคํ ์๋ต, ๊ทธ๋ฆฌ๊ณ ์กฐ์ง ๋ด ์ฌ๋ฌ ๋ถ์์ ๋ฌธ์ ํด๊ฒฐ ์ง์์ ํตํ ์ํํ ์ ๋ฌด ์ด์ ๋ฑ ๋ค์ํ ์ฅ์ ์ ์ป์ ์ ์์ต๋๋ค. ๊ฒ์ ์ฐ์ ์ ์ ์ฉํ์ฌ ์๋ฅผ ๋ ๋ค๋ฉด, ์๋น์ค๋ฅผ ํ๋ฉด์ ์ถ์ ํ ๊ณต๋ต์ ๊ดํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ์ ๋ฐ์ดํธ์ ๋ฐ๋ผ ์์๊ฐ๊ฐ ๋ณํ๋ ์บ๋ฆญํฐ ์ก์ฑ๋ฒ, ์คํ ๋ฆฌ ๊ณต๋ต๋ฒ์ ๋ํ ์ ๋ณด๋ฅผ ์์์ ์ ํ๊ฒ ์์ฑํด์ค ์ ์์ ๊ฒ์ ๋๋ค. ๋ํ ์ ๊ท ๊ฒ์์ ์ค๋นํ๋ ๋ถ์์๊ฒ ๊ฒ์์ ์ธ๊ณ๊ด ์์ฑ์ ๋๊ฑฐ๋ ํ๋ณด๋ฅผ ์ํ 2์ฐจ ์ฐฝ์๋ฌผ(ํฌํฝ) ์์ฑ ๋ฑ ์์ฒด์ ์ผ๋ก ๋ณด์ ํ IP ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ง์ถคํ ์ธ์ด๋ชจ๋ธ์ ๋์ ํจ์ผ๋ก์จ ์ ์ ์ ์ฝํ ์ธ ์๋น๋ฅผ ์ง๊ฐ์ ์ ์ผ๋ก ๋์ธ ์ ์์ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ๋ง์ถคํ ๋ชจ๋ธ์ ๊ฒ์ ์ฉ์ด, ์ ๋ต, ํ๋ ์ด์ด ํ๋์ ๋ํ ๊น์ ์ดํด๋ฅผ ๊ฐ์ถ๊ณ ์์ด ๊ฒ์์ ํ๋ ์ด์ด ๊ฒฝํ์ ์ต์ ํํ๊ณ ์๋ก์ด ์ฐฝ์์ ์ธ ์์๋ฅผ ์ถ๊ฐํ์ฌ ๊ฒ์์ ์ฑ๊ณต์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ ๊ฒ์ ๋๋ค.
์์ฒญ๋ ๊ธฐ์ ๋ค์ด ๊ณ์ํด์ ๋ฑ์ฅํ๊ณ ์์ง๋ง, ๊ฒฐ๊ตญ ํ์ํ ๊ฒ์ ๊ณ ์ ํ ๋ฐ์ดํฐ์ ๋๋ค. ์ธ์ ๋ ๊ทธ๋ฌ๋ฏ์ด ๋ฐ์ดํฐ๋ฅผ ์ค๋นํ๋ ๊ฒ์ ์ง์คํ๋ฉด ์ฐ์ ํด์๋ ์ฌ๋ฌ ๋น์ฆ๋์ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ ๊ฒ์ด๋ผ ์๊ฐํฉ๋๋ค.
Reference
[1] https://github.com/tatsu-lab/stanford_alpaca
[2] https://github.com/lm-sys/FastChat
[3] Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H., & Kang, J. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4), 1234-1240.
[4] Guo, Z., Wang, P., Wang, Y., & Yu, S. (2023). Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation. arXiv preprint arXiv:2305.07804.