通常,问答系统使用文本回答问题。这样的任务是Squad任务,它为您提供一段解释事实并提出问题并生成适当答案的段落。相反,Visual QA是提供图像而不是文本并进行对话的任务。
今天的论文“ 3D注意就是您所需要的”是图像到图像的扩展,并描述了一种算法,用于针对给定图像生成对问题内容的适当响应。基本上,这是一种基于转换器的算法,但是与Visual QA相比,Video QA难以同时考虑空间和时间上下文,因为添加了时间轴。作者同时使用SlowFast网络进行图像行为识别,并使用LXMERT同时进行特征参数提取。据说FrameQA是TGIF-QA数据集的一部分,它由GIF动画文件以及问题和答案组成。
可以理解视频的任务非常困难,因为它可以包含多种形式。先前的研究主要旨在尝试仅识别图像数据中的部分特征或对图像的每个图像帧进行操作。可替代地,还找到了诸如将适合于空间特征分析的2D CNN扩展到3D CNN的方法。但是,将自然语言处理和视频理解领域联系起来的尝试仍处于起步阶段,近年来,正如在共享论文中一样,这种领域正在迅速发展,并且被认为是一个有望在未来发展的领域。
在Github页面上共享该论文的链接