Meta AI OPT-175B 공개와 large scale model

[생성지능개발팀 유희조]

Open AI의 GPT-3 발표 이후 ‘더 큰 언어모델’ 라는 형태의 경쟁은 하나의 패러다임이 되었습니다. Nvidia, Microsoft, Google 등의 해외 기업 뿐만 아니라 국내에서도 네이버, LG 등의 기업들이 지속적으로 대규모 언어 모델(large scale LM) 발표를 하고 있죠. 그런 추세에 Meta도 합류한 것으로 보입니다. Meta는 최근 large scale LM인 OPT-175B를 공개하였습니다. Meta 측은 OPT-175B의 기존에 발표된 대규모 언어 모델들과의 차별화하기 위해 소스코드 공개, 오픈소스 데이터 사용, 탄소중립성 등을 언급하였습니다.

사실 최근까지 Meta(구 Facebook)의 행보는 다소 차이가 있었습니다. 작년 Meta에서 공개한 Blender bot 2.0의 크기는 약 2.7B로 개인 연구자 수준에서는 작지 않은 모델이지만 위에 언급된 대규모 언어 모델들, 그 대표격인 GPT-3의 175B에 비교하면 매우 작다고 할 수 있습니다. 비단 Blender bot 뿐 만 아니라 RAG 등을 포함하여 Meta에서 공개한 다수의 언어 모델들은 large scale이 아닌 구조적 측면에서 문제 해결을 시도해왔다고 생각합니다. 그렇기에 이번 OPT-175B의 공개는 다소 의외로 보입니다. 언어 모델 분야의 답은 역시 대규모 언어 모델로 귀결되는걸까요?

대규모 언어 모델이 정답이든 아니든, 이런 추세에 Meta가 합류한 것은 사실이고 아마 치킨레이스라고도 할 수 있는 이 패러다임은 당분간 멈추지 않을 것 같습니다.

Reference

[1] https://arxiv.org/abs/2205.01068
[2] http://www.aitimes.kr/news/articleView.html?idxno=25025
[3] https://zdnet.co.kr/view/?no=20220504185647

Meta AI OPT-175B 공개와 large scale model

Related Posts