由BERT代表的基于深度学习的大规模语言模型在与自然语言相关的各种任务(例如问答,文档摘要,文档生成和对话)中表现出优异的性能,特别是最近出现的GPT-3,它具有更多的人工智能通用方法(AGI)。有人将其评为。
自然语言理解(NLU)专家ONTOLOGIK的首席AI科学家Walid Saba发表了不同的看法,这主要是因为像BERT(统称为BERTology)之类的语言模型实际上与“理解”概念相去甚远。从这种观点出发,他们评论说这不是解决NLU的好方法。共享原始链接。
原始文本讨论了三个角度:缺失文本,意图和统计意义,第一个透视图是一个示例,它说明了缺失文本,如下所示:
句子:哲秀辞去研究生院,加入一家软件公司。
上面的句子很短,但是除了字面意思之外还有其他各种意思。例如,他是一名研究生,他是一个成年人,并且一家软件公司正在招聘人员。换句话说,指出不可能仅用给定的句子来理解所有内容,并且指出只有当可以从“常识”的角度得出各种事实时,才可以将其称为“理解”。另外,原始示例中包含各种示例,因此我们建议您阅读它们。
第二种观点,即意图,是一个单词是一个符号,但它也是一个概念,并且也是映射到现实世界的对象,因此,根据含义,同一个单词必须有不同的解释:
句子1:哲ol教他的弟弟7 + 9 = 16 。
句子2:Cheol-soo教他的弟弟7 + 9 = ROOT(256) 。
16和ROOT(256)是相同的值,但是您可以猜测第一句话教“加法”,第二句话教“根”。当前用空白词填充训练的语言模型正在谈论他们试图教以解决这种现象的方法,即必须考虑意图。
最后,第三种观点,即统计意义,告诉我们,仅仅学习大型数据集中的模式通常是不够的:
句1:奖杯不适合在袋子里,因为它太大了。
句子2:这个奖杯不适合在袋子里,因为它太小了。
人们会推断出奖杯不能放入袋中的原因,因此,很容易看出句子1中的“它”是奖杯,句子2中的“它”是袋子。但是,由于没有明确的推理过程,目前的语言模型只能通过统计模式学习方法进行简单地处理,因此无法预测“大”或“小”,并且他们无法理解“它”是奖杯还是书包。
作者总结说:“语言不仅仅是数据。”就我个人而言,我认为本文中的一些示例可以通过许多补充措施(常识知识图,意图分析,逻辑推理)来克服,但是很容易通过仅增加数据量来应对当前语言模型所采用的方法。我对这很难做到这一点表示同情。如果我们弥补这些结构性缺陷,我们认为使用更少的数据将可以进行更多类似人的对话。