在另一种机器学习方式——强化学习中,我们不给程序任何明确的训练数据:它通过决策来进行实验,并且接收这些决策的反馈,以判断它们是好是坏。例如,强化学习被广泛应用于训练游戏程序。程序玩某个游戏,如果它赢了,就会得到正反馈,如果它输了,就会得到负反馈。不管正负,它得到的反馈都被称为奖励。程序将会在下一次玩游戏的时候考虑奖励的问题,如果它得到的是正面的奖励,那么下一次玩的时候它更倾向使用同样的玩法,如果是负面的,那它就不太可能这样做。
强化学习的关键困难在于,许多情况下,奖励反馈可能需要很长的时间,这使得程序很难知道哪些行为是好的,哪些行为是坏的。假设强化学习的程序输了一场游戏,那么,究竟是游戏中的哪一步导致了失败呢?如果认为游戏中的每一步都是错误的,那肯定算总结过度。但我们怎么分辨究竟哪一步是错的?这就是信用分配问题[10]。我们在生活中也会遇见信用分配问题。如果你抽烟的话,很可能在未来收到与之有关的负面反馈,但是这种负面反馈通常会在你吸烟很久以后(通常是几十年)才会收到。这种延迟的反馈很难让你戒烟。如果吸烟者在吸烟以后立即就能收到负面反馈(以危及生命和健康的方式),那么我认为,烟民数量一定会锐减。