주어진 질문에 대해 적합한 답변을 생성하는 QA Task는 최근 딥러닝 기술로 인해 많은 성능 향상이 이루어져 왔습니다. 잘 알려진 SQuAD도 이런 Task 중 하나입니다.
그런데, 각 Task 별로 모델이 학습되다보니 그 Task만 대응 가능한 문제가 있으며 특히 각 Task 별로 원하는 형태 및 질의 응답 포맷이 조금씩 달라서 여러 모델을 하나로 합치는 일은 쉽지 않은 일로 여겨지고 있습니다.
AllenAI가 공개한 UnifiedQA는 이러한 문제를 해결하기 위한 것으로서, SQuAD, NarrativeQA, ARC-challenge 등을 포함한 20가지의 QA Dataset을 포괄하는 단일 모델을 학습하는 접근법을 취하고 있습니다. 특히 각 QA Task들은 context가 주어졌을 때, 목적하는 바가 조금씩 다릅니다. 예를 들어 fact를 추출하는 것이 필요한 경우, 상황 요약이 필요한 경우, 여러 선택지에서 하나를 고르는 경우, 가/부를 정하는 경우 등입니다. UnifiedQA는 이러한 4가지 목적을 하나의 모델로 대응할 수 있는 장점을 가지고 있습니다. 다음은 관련 논문입니다.
UnifiedQA: Crossing Format Boundaries With a Single QA System
Question answering (QA) tasks have been posed using a variety of formats,
such as extractive span selection, multiple choice, etc. This has led to
format-specialized models, and even to an implicit division in the QA
community. We argue that such boundaries are artificial and perhaps
unnecessary, gi…
such as extractive span selection, multiple choice, etc. This has led to
format-specialized models, and even to an implicit division in the QA
community. We argue that such boundaries are artificial and perhaps
unnecessary, gi…
코드 및 T5와 BART 기반으로 학습된 모델도 다음 github 링크에 공개되어 있습니다: