大多数聊天机器人系统仍然基于规则运行,但是为了实现自然对话,最终将需要使用更复杂的语言模型,例如BERT。但是,人们已经认识到BERT既繁琐又复杂,我们简要介绍了游戏平台公司Roblox为使用BERT提供服务而做了的工作。基本上,使用GPU进行维修并不划算,因此我从一开始就为使用CPU的情况做好了准备。
与普通BERT相比,有三个变化:(1)DistilBert(2)动态输入形状(3)整数量化。大致来说,(1)和(2)快2倍,而(3)快8倍。当全部应用时,其速度比普通BERT快30倍左右,并且延迟大大降低。在32核Xeon处理器上,每秒可能有3,000多个推理,这据说比同等价位的V100 GPU效率高出6倍。特别是在CPU的情况下,我认为它会受到(3)的更多影响,但是我将不得不稍后对其进行测试。