현재까지 제안된 많은 MRC 모델들이 다양한 Task와 Dataset에서 인간의 능력을 넘어선 평가값을 보여주고 있지만, 주어진 context에 대해서 인간보다 더 잘 이해하는 것인가?라는 질문을 받는다면 쉽게 YES라고 말하기 어렵다고 생각합니다.
우선, 현재의 MRC 기법들이 과연 “understanding”을 하는 것인가에 대해서 여러 가지 이견들이 있습니다. 내용을 이해하고 소화한 후 대답하는 것과, 문제 유형을 학습하여 주어진 글에서 특정 패턴을 찾아 조합하여 출력을 내는 것은 분명히 다르기 때문입니다.
두 번째로, 현재의 MRC Task와 평가 metric, 그리고 Dataset이 과연 “real world”를 얼마나 잘 반영하고 있는지 명확하지 않습니다. 링크의 논문은 이러한 부분을 해소하기 위한 첫 번째 작업으로, 57개의 MRC Task와 Dataset들을 분석하고 Task, Evaluation metrics, Dataset을 분류하고 정의하였습니다. 이 쪽을 연구하신 분들은 대부분 다 아는 내용들이긴 하지만, 한 번 쭉 정리하는 목적으로는 좋은 것 같습니다.
이 논문에서는 Open Issue로 (1) 현재 MRC 기술의 어떤 면이 보완되어야 하는가? (2) 우리는 “understanding”에 대해서 얼마나 이해하고 있는가?라는 두 주제를 제시하면서 끝을 맺습니다. 두 가지 모두 Human-Like AI로 가기 위해서는 꼭 고민해봐야 할 내용이라고 생각합니다.
Machine Reading Comprehension Tasks, Metrics, and Datasets
How to cite: Chengchang Zeng, Shaobo Li, Qin Li, Jie Hu, Jianjun Hu, A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics, and Benchmark Data…