电影中泰国警察剧情介绍:在另一种机器学习方式——强化学习中,我们不给程序任何明确的训练数据:它通过决策来进行实验,并且接收这些决策的反馈,以判断它们是好是坏。例如,强化学习被广泛应用于训练游戏程序。程序玩某个游戏,如果它赢了,就会得到正反馈,如果它输了,就会得到负反馈。不管正负,它得到的反馈都被称为奖励。程序将会在下一次玩游戏的时候考虑奖励的问题,如果它得到的是正面的奖励,那么下一次玩的时候它更倾向使用同样的玩法,如果是负面的,那它就不太可能这样做。强化学习的关键困难在于,许多情况下,奖励反馈可能需要很长的时间,这...