【强化学习】读书手札：动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别

来源：互联网收集：自由互联发布时间：2022-09-29

阅读Sutton著作时，对动态规划、蒙特卡洛、时序差分三种方式有些费解，在此对三者的区别作一些简单的梳理。动态规划(DP) 动态规划最主要的特点是转移概率已知，因此可根据贝尔曼

阅读Sutton著作时，对动态规划、蒙特卡洛、时序差分三种方式有些费解，在此对三者的区别作一些简单的梳理。

动态规划(DP)

【强化学习】读书手札：动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别_算法

动态规划最主要的特点是转移概率已知，因此可根据贝尔曼方程来进行状态更新，相当于开了“上帝视角”，不适用于实际问题。

【强化学习】读书手札：动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别_概率论_02

蒙特卡洛主要思想是通过大量的采样来逼近状态的真实价值。该方法的起始点是任意选取的，一直到终止状态才进行一次更新，因此当动作序列很长时或者出现循环，该方法便不适用。

该方法有两种类型：

首次访问型：把状态序列中第一次出现该状态时的收获值纳入到收获平均值的计算
每次访问型：把状态序列中每一次出现该状态都计算对应的收获值并纳入到收获平均值的计算

另外注意：当一幕结束进行更新时，是反向进行计算的，即最后一状态的奖励为，倒数第二奖励为…

【强化学习】读书手札：动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别_javascript_06

该方法不像MC需要在每个序列终止后再更新，而是每进行一步就进行更新，更适用于实际情况，往往效果比MC更好（数学上并无严格证明）。

【强化学习】读书手札：动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别_javascript_07

TD预测中可分为两种方法SARSA和Q-Leaning。

Sarsa属于同轨策略(On-policy)

更新公式：

【强化学习】读书手札：动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别_概率论_08

从公式可以看出Sarsa需要五个值：S,A,R,S’,A’，这也是该算法命名由来。

Q-Leaning属于离轨策略(Off-policy)

该方法遵循一个策略μ(a∣s)的同时评估另一个策略π(a∣s)具体数学表示为：

【强化学习】读书手札：动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别_强化学习_09

【强化学习】读书手札：动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别_javascript_10

Q-learning的要点在于，更新一个状态动作二元组的价值时，采用的不是当前遵循策略的下一个状态动作二元组的Q价值，而是采用的待评估策略产生的下一个状态动作二元组的Q价值。公式如下：

【强化学习】读书手札：动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别_javascript_11

其中动作

上一篇：远程登陆Win10自带子系统Ubuntu-22.04
下一篇：没有了