5.1 马尔可夫决策过程

如果一个系统的状态的迁移变化,只与当前状态或者当前的N个状态有关,那么我们就称这个系统具有马尔可夫性。

马尔可夫决策过程(Markov Decision Process,MDP)也具有马尔可夫性,并且MDP的状态迁移还与当前采取的动作有关。MDP由4个组件组成,它们分别是:

·S,表示状态空间,由MDP中全部的状态组成。

·A,表示动作空间,由MDP中全部的动作组成。

·P(S,A),表示状态迁移矩阵,描述了当前状态在指定动作下迁移到下一个状态的概率。

·R(S,A),表示奖励,也称为回报函数,描述了当前状态在指定动作下迁移到下一个状态时得到的奖励。

图5-1是一个典型的MDP过程,原始状态是S0 ,S0 执行动作a0 后,迁移到状态S1 ,得到回报r0 ;S1 执行动作a0 后,迁移到状态S2 ,得到回报r1 。即:

S=(S0 ,S1 ,S2 )

A=(a0 ,a1 )

R(S,A)=(r0 ,r1 )

P(S,A)是状态迁移矩阵,如表5-1所示。

表5-1 状态迁移表

图5-1 典型的MDP过程