일상 대화 연구에서 두각을 나타내고 있는 스캐터랩(https://scatterlab.co.kr/) 핑퐁팀 블로그에 있는 글인데 GPT-3 사례에 대해서 스토리있게 잘 정리된 것 같아서 공유합니다. 저는 GPT-3를 아직은 ‘의심의 눈초리’로 보고 있습니다만 다시 봐도 신기한 건 틀림없네요^^
다만, GPT-3를 기존 언어 모델들과 비교하는 대신 좀 더 범위를 넓혀 본다면 어떨까요? 예를 들어 “Google Search”와 비교한다면… 커버하는 지식의 범위, 식견, 문제 해결을 위한 정보 등 모든 면에서 Google Search는 현재 GPT-3가 보여주는 사례 이상의 정보량을 제공해 줍니다. 다만, 입/출력이 자연어로 정제된 형태가 아니라는 차이를 제외하면 말이죠.
약간은 궤변으로 보일 수도 있지만, GPT-3가 대규모 데이터로 “빈칸 채우기” 학습을 통해 만들어졌다는 것을 생각해 보면 Google Search는 그 규모를 훨씬 더 상회하는 데이터양에 대해 다양한 인덱싱 기법을 적용하여 만들어진 결과물입니다. 만일 Google Search에 언어 모델을 적용해서 자연어 입/출력 형태를 만들어 낸다면 GPT-3와 비교할 때 어떨지 궁금해집니다.
만일 그 결과물이 GPT-3가 현재 보여주는 것과 유사하다면, 이는 오히려 GPT-3의 결과물이 추론이나 창작, 생성이 아니라 이미 존재하는 방대한 지식에 대한 검색임을 반증하는 것이라고 생각합니다.
또한, 만일 그 결과물이 GPT-3와 다르다면 그 “차이점”을 분석하고 연구함으로써 많은 것을 알 수 있을거라고 기대합니다. 예를 들어 “기억”과 “창작”의 차이와 같은. 다음은 스캐터랩 블로그에 올라온 글의 링크입니다:
한편, Karpathy는 minGPT라는 프로젝트를 통해 PyTorch로 만든 GPT 구조와 학습 스크립트를 공개했는데, 파라미터만 바꾸면 GPT-1, GPT-2, GPT-3 모두 표현 가능하도록 만들어져 있습니다. 물론 교육적 목적으로 제작된 것이며, GPT-3를 학습시키는데 사용된 데이터가 공개된 것은 아니라서 재현하는 것은 어렵겠지만 GPT 구조에 대해서 궁금한 분들에게는 유용하게 사용될 수 있을 것 같습니다. 그리고, 대량의 학습 데이터를 확보하고 있는 회사라면 또 다른 GPT-3 variant를 만들 수도 있다고 봅니다. 다음은 minGPT github 링크입니다.