OpenAI의 GPT-3는 175B에 달하는 파라미터 수를 가지는 거대 언어 모델입니다. GPT-3가 보여주는 놀라운 결과물들에도 불구하고 오픈소스로 공개되어 있지 않기 때문에 사용해 보려면 AI Dungeon(https://play.aidungeon.io/main/landing)이나 Philosopher AI(https://philosopherai.com/)와 같은 사이트를 통해야 합니다. 또한 Microsoft와의 독점 라이센싱 계약으로 향후 유료화될 가능성이 높다고 생각됩니다.
비영리 오픈소스 연구단체인 Eleuther AI에서 발표한 GPT-Neo는 GPT-3의 구조를 활용하여 학습한 거대 언어 모델로서, 학습 및 테스트에 필요한 코드들이 오픈소스로 공개되어 있을 뿐 아니라 학습에 사용된 대규모 데이터셋인 Pile과 pre-trained model도 함께 공개되어 있습니다. 다음은 GPT-Neo와 Pile의 github 저장소 링크입니다:
GPT-Neo는 대규모 병렬학습을 위한 라이브러리인 mesh-tensorflow 기반으로 만들어졌으며, 1.3B개의 파라미터를 가지는 모델과 2.7B개의 파라미터를 가지는 모델의 pre-trained model이 공개되어 있습니다. 또한, HuggingFace에도 GPT-Neo가 추가되어 손쉽게 사용해 볼 수 있게 되었습니다. 다음은 HuggingFace의 GPT-Neo 링크이며, 여기에는 125M와 350M개의 파라미터를 갖는 모델들이 추가로 제공되어 GPT-Neo 125M, GPT-Neo 350M, GPT-Neo 1.3B, GPT-Neo 2.7B의 네 가지 모델들을 사용해 볼 수 있습니다.
한편, Eleuther AI에서는 GPT-Neo의 후속 프로젝트인 GPT-NeoX도 함께 진행하고 있습니다. Mesh-tensorflow에 기반한 GPT-Neo와는 달리 GPT-NeoX는 NVidia Megatron과 DeepSpeed(https://smilegate.ai/2021/01/27/deepspeed-fairscale/)에 기반하고 있으며 tensorflow 대신 pytorch로 코드베이스를 이전하였습니다. Eleuther AI에 따르면 최종적으로 GPT-3 175B와 유사한 수준의 파라미터 수를 갖는 모델을 학습할 계획이라고 하니 다양한 추가 분석 및 활용이 가능해질 것으로 생각됩니다. 다음은 GPT-NeoX의 github 저장소 링크입니다.