强化学习由MDP发展而来,有如几个基本的概念(见图5-2):
·Environment(环境)。
·Agent(智能体)。
·Action(动作)。
·Observation(状态),包含Agent执行动作以后进入的下一个状态。
·Reward(奖励),Agent执行动作后会得到环境反馈的奖励。
Agent在具体环境下基于一定的策略判断后执行动作,然后会得到环境的奖励并迁移到新的状态,这就是强化学习中的一个典型交互过程。Agent判断的策略是基于特定的状态s下,选择未来带来奖励最多的动作a,我们将这个特定s和a下的代表未来的奖励称为Q函数,Q函数通常表示为Q(s,a)。
图5-2 强化学习基本概念图