该链接是对索尼和苏黎世联邦理工学院发表的一篇论文的回顾,该论文表明,强化学习已应用于著名的汽车游戏《 Gran Turismo》中,该游戏已经超越了人类的记录。
本身使用的技术基于一个众所周知的简单的行为准则模型,该模型给出了汽车的状态和位置作为输入,而奖励基本上是一个方向,以最大程度地缩短圈速,但在发生碰撞的情况下给出了惩罚。
经过训练的模型超越了擅长游戏并优化跟踪的人员的记录,尤其是在曲线部分。
用来证明超级跑车性能的纽伯格林纪录似乎也将被AI赛车手和自动驾驶汽车所更新。像Go一样,F1也可能让人类驾驶员和AI驾驶员相互竞争,或者人类可能会在观看AI驾驶员的驾驶视频时学习。
但是,从游戏公司的角度来看,需要一种能够与水平匹敌的人工智能,而不是超级人类的人工智能,在游戏领域有很多案例超越了人类,但是关于如何降低其技能的研究却很少。这是因为简单地施加机械惩罚的方法不会很有趣,因此向下的技巧也应该以接近人类的现实方式对待。这种类似于人的水平被认为是另一研究课题。