BERT로 대표되는 딥러닝 기반의 대규모 언어 모델은 Q&A, 문서 요약, 문서 생성, 대화 등 자연어 관련한 다양한 task에서 뛰어난 성능을 보이고 있으며 특히 최근 등장한 GPT-3의 경우 인공 일반 지능(AGI)에 한층 접근한 것으로 평가하는 사람들도 있습니다.
자연어 이해(NLU) 전문 업체인 ONTOLOGIK의 수석 AI 과학자인 Walid Saba는 이와는 다른 관점의 글을 게시하였는데, 주된 내용은 BERT와 같은 언어 모델(BERTology로 통칭)들이 사실 “이해”라는 개념과는 동떨어져 있으며 그런 관점에서 보면 NLU를 해결하는데 좋은 방법이 아닌 것 같다는 의견을 냈습니다. 원문 링크 공유합니다.
원문에서는 Missing Text, Intention, Statistical Insignificance라는 세 가지 관점을 이야기하고 있는데, 첫 번째 관점, Missing Text를 잘 설명해 주는 예제는 다음과 같습니다:
문장: 철수는 소프트웨어 회사에 입사하기 위해서 대학원을 그만두었다.
위의 문장은 짧지만, 문장 그대로의 의미 이외에도 내포하고 있는 의미는 다양합니다. 예를 들어, 철수가 대학원생이었다는 사실, 철수가 인간 성인이라는 사실, 그리고 소프트웨어 회사가 인력 채용 중이었다는 사실 등입니다. 즉, 주어진 문장만으로 내용을 전부 이해할 수 없으며, “상식”이라는 관점에서 여러 사실들을 도출할 수 있어야 비로소 “이해”라고 할 수 있다는 지적입니다. 이외에도 다양한 예제들이 원문에 포함되어 있으니 읽어보실 것을 권장합니다.
두 번째 관점인 Intention은 단어는 Symbol이기도 하지만 Concept이기도 하고, 실 세계에 매핑된 Object이기도 하기 때문에, 어떤 것을 의미하느냐에 따라 같은 단어라고 해도 다르게 해석되어야 한다는 것입니다:
문장1: 철수는 동생에게 7+9=16을 가르쳤다.
문장2: 철수는 동생에게 7+9=ROOT(256)임을 가르쳤다.
16과 ROOT(256)은 같은 값이지만, 첫 번째 문장은 “덧셈”을 가르친 것이고 두 번째 문장은 “루트”를 가르친 것이라는 것을 짐작할 수 있습니다. 빈 단어 채우기 방식으로 학습되는 현재의 언어 모델들이 이러한 현상에 대응하려면 무엇을 가르치려고 했는지에 대한 것, 즉 Intention을 함께 고려해야 한다는 점을 이야기하고 있습니다.
마지막으로 세 번째 관점인 Statistical Significance는 대규모의 데이터에서 나타나는 패턴을 학습하는 것 만으로는 충분하지 않은 경우가 많다는 것을 이야기하고 있습니다:
문장1: 트로피가 가방에 들어가지 않았다, 왜냐하면 그것이 너무 컸기 때문이다.
문장2: 트로피가 가방에 들어가지 않았다, 왜냐하면 그것이 너무 작았기 때문이다.
인간이라면 트로피가 가방에 들어가지 못한 이유를 추론할테고, 그 결과 문장1에서의 “그것”은 트로피이고, 문장2에서의 “그것”은 가방임을 쉽게 알 수 있습니다. 그러나, 단순히 통계적 패턴 학습법으로만 접근하는 현재의 언어 모델들은 명시적 추론 과정이 없기 때문에 “크다” 혹은 “작다”를 예측할 수 없으며 또한 “그것”이 트로피인지, 가방인지 이해할 수 없다는 점입니다.
저자는 “언어는 단지 데이터 뿐만이 아니다”라고 결론을 맺고 있습니다. 개인적으로 이 글에서 예를 든 것 중 일부는 다수의 보완책(상식 지식그래프, 의도 분석, 논리적 추론)에 의해서 극복 가능하다고 생각하지만, 현재의 언어 모델이 취하는 접근법에 데이터 양만을 늘리는 것으로는 쉽게 대응되기 힘들다는 점에 공감이 됩니다. 이러한 구조적 단점을 보완한다면, 오히려 훨씬 더 적은 데이터 양만으로도 더 인간에 가까운 대화가 가능해지리라고 생각합니다.