5.7 本章小结

本章介绍了常见的单智力体强化学习,包括MDP、Q函数,常见的贪婪算法和∈-贪婪算法,Sarsa算法、Q Leaning算法以及DQN,并介绍了如何使用Sarsa算法和Q Leaning算法来处理金币问题,如何使用DQN处理CartPole问题。虽然本章介绍的强化学习都是基于单智力体,但是这基本可以覆盖现实生活中的大部分强化学习问题。另外DQN在Keras-rl中已经提供了现成的库,后面章节也将介绍。