SuperGLUE是一项挑战,需要针对各种自然语言理解任务评估AI技术的性能。它的特点是比现有的GLUE更加困难,并且微软最近发布的DeBERTa模型实现了SOTA(最先进),并且据说评估结果超出了人类的表现。特别是,虽然现有的SOTA模型(基于Google的T5模型)使用了约110亿个参数,但DeBERTa仅用15亿个参数就表现出更好的性能。以下是一些相关文章和指向github的链接:
它是基于Pytorch 1.3实现的,经过训练的模型和源代码也已在github上发布。当然,即使SuperGLUE超越了人类的表现,它也不会改变结果仅限于特定任务的情况,但它被认为是朝着装备更像人类的对话能力迈出的重要一步。