如果一个系统的状态的迁移变化,只与当前状态或者当前的N个状态有关,那么我们就称这个系统具有马尔可夫性。
马尔可夫决策过程(Markov Decision Process,MDP)也具有马尔可夫性,并且MDP的状态迁移还与当前采取的动作有关。MDP由4个组件组成,它们分别是:
·S,表示状态空间,由MDP中全部的状态组成。
·A,表示动作空间,由MDP中全部的动作组成。
·P(S,A),表示状态迁移矩阵,描述了当前状态在指定动作下迁移到下一个状态的概率。
·R(S,A),表示奖励,也称为回报函数,描述了当前状态在指定动作下迁移到下一个状态时得到的奖励。
图5-1是一个典型的MDP过程,原始状态是S0 ,S0 执行动作a0 后,迁移到状态S1 ,得到回报r0 ;S1 执行动作a0 后,迁移到状态S2 ,得到回报r1 。即:
S=(S0 ,S1 ,S2 )
A=(a0 ,a1 )
R(S,A)=(r0 ,r1 )
P(S,A)是状态迁移矩阵,如表5-1所示。
表5-1 状态迁移表
图5-1 典型的MDP过程