흔히 Q&A task라고 부르는 문제는 질문과 대답을 pair로 기록한 데이터 세트로부터 학습하여 질문을 던졌을 때 적절한 대답이 나오도록 하는 것을 목표로 합니다. 챗봇을 생각하면 되는데, question generation은 이와는 달리 문단을 주면 그 문단에서 나올 수 있는 질문들을 자동으로 생성하는 task입니다.
이러한 기술은 Q&A task를 위한 데이터 세트를 자동으로 생성하여 학습하는 self-supervised learning에서도 활용할 수 있고, 챗봇의 ‘선톡’을 구현하기 위한 기술로도 쓸 수 있습니다. 아래의 github 저장소는 SKT KoGPT-2를 활용하여 question generation model을 만든 것으로서, 학습된 모델도 다운로드 가능합니다.
codertimo/KorQuAD-Question-Generation
question generation model with KorQuAD dataset. Contribute to codertimo/KorQuAD-Question-Generation development by creating an account on GitHub.
또한, 다음의 링크는 Google의 다국어 언어 모델인 mT5를 이용해서 다국어 question generation model을 만드는 방법을 다룬 글입니다.
How to Finetune mT5 to Create a Question Generator 🤔(for 100+ Languages)
Its been a month since Google released the massive multilingual model mT5. I was really excited to perform some crazy experiments using mT5. The special quirk about mT5 is its ability to perform any…
수동적으로 대답하는 것이 아니라 능동적으로 질문을 하는 대화 모델을 만들기 위해서는 질문해야 할 시점에 대한 판단 등 question generation 말고도 생각해야 할 부분이 많지만 좀 더 자연스러운 대화가 가능하려면 이러한 기술 요소들이 모두 필요할 것으로 보입니다.