일반적으로 Q&A 시스템은 텍스트를 사용해서 질의 응답을 수행합니다. 이런 방식의 태스크로는 어떤 사실을 설명한 문단을 주고 질문을 던지면 적당한 대답을 생성하는 Squad task가 있습니다. 이에 비해, Visual QA는 텍스트 대신 이미지를 한 장 주고, 여기에 대한 대화를 나누어가는 태스크입니다.
오늘 소개할 논문인 “3D Attention is All You Need”는 이미지를 영상으로 확장한 것으로서, 주어진 영상에 대해 질문 내용에 적절한 응답을 생성하는 목적의 알고리즘을 기술하고 있습니다. 기본적으로 transformer 기반의 알고리즘인데, Visual QA에 비해 Video QA는 시간축이 추가되기 때문에 공간적 맥락과 시간적 맥락을 동시에 고려해야만 하는 어려움이 있습니다. 저자는 영상 행동 인식에 사용되는 SlowFast 네트워크와 특징 파라미터 추출을 위한 LXMERT를 동시에 사용하여 접근하였습니다. 데이터로는 GIF 애니메이션 파일과 그에 대한 질의 응답으로 이루어진 TGIF-QA 데이터셋의 일부인 FrameQA를 사용하였다고 합니다.
영상을 이해하는 태스크는 여러 가지 모달리티가 포함될 수 있다는 점에서 난이도가 매우 높다고 할 수 있습니다. 그 동안의 연구들은 주로 영상 데이터로부터 일부분의 특성만을 인식하는 것을 시도하거나 영상의 각 이미지 프레임을 대상으로 동작하도록 설계되었습니다. 또는 공간 특징 분석에 적합한 2D CNN을 3D CNN으로 확장하는 등의 접근도 발견됩니다. 다만, 공유한 논문과 같이 최근 급격하게 발전하고 있는 자연어 처리 영역과 영상 이해를 연결하려는 시도는 아직 초기 단계라고 볼 수 있는데, 향후 많은 발전이 기대되는 분야로 생각됩니다.
Github 페이지와 논문 링크 공유합니다.