知识点

1.无模型价值学习评估

  • 蒙特卡洛方法
  • 时序差分学习
  • TD(𝝀)

2.无模型策略优化控制

  • 蒙特卡洛策略迭代
  • 时序差分策略迭代(SARSA)
  • Q值迭代 (Q-learning)

1. 无模型价值学习评估

1.1 蒙特卡洛方法

蒙特卡洛方法是一种基于样本的方法,不需要知道环境的所有信息。只需基于过去的经验就可以学习。具体来说,给定一个策略 π,通过对 π 产生的回报取平均值来评估状态价值函数。这样就有两种估算方式: 首次蒙特卡罗(First-Visit Monte Carlo)和每次蒙特卡罗(Every-Visit Monte Carlo)。首次蒙特卡罗只考虑每一个回合中第一次到状态 s 的访问,而每次蒙特卡罗就是考虑每次到状态 s 的访问。

注意的是,和动态规划不同的是,蒙特卡罗不使用自举(Bootstrapping),也就是说,它不用其他状态的估算来估算当前的状态值。 图片

离线学习:智能体从预先收集好的数据中进行学习。

在线学习:智能体通过与环境实时交互来获取知识和经验。

1.2 时序差分学习

时序差分学习方法同蒙特卡洛方法一样是不基于模型的,不需要马尔可夫决策过程的知识。但是时序差分学习方法可以直接从经历的不完整经历片段中学习,它通过自举(bootstrap)猜测经历片段的结果并不断更新猜测。即时序差分学习方法可以在每一次经历的过程中进行学习,而蒙特卡洛方法只能等到每次经历完全结束时才能进行学习。

\[𝑉(𝑆_{𝑡}) ← 𝑉(𝑆_{𝑡}) + 𝛼(𝐺_t − 𝑉(𝑆_{𝑡}))\]

图片

对TD(0),即one-step TD:

\[𝑉(𝑆_{𝑡}) ← 𝑉(𝑆_{𝑡}) + 𝛼(𝑅_{𝑡+1} + 𝛾𝑉(𝑆_{t+1}) − 𝑉(𝑆_{𝑡}))\]

图片

这个算法又被叫做SARSA,因为用到了 \((S_t, A_{𝑡}, R_{𝑡+1}, S_{𝑡+1}, A_{𝑡+1})\)

  • 蒙特卡洛方法没有偏倚,是对当前状态实际价值的无偏估计,但有着较高的变异性,且对初始值不敏感。
  • 时序差分方法方差更低, 但有一定程度的偏差,对初始值较敏感,通常比蒙特卡洛方法更高效。

1.3 TD(𝝀)

图片 图片 图片 图片 图片 图片 图片

2.无模型策略优化控制

2.1 蒙特卡洛策略迭代

图片

2.2 时序差分策略迭代(SARSA)

\[G_{t:t+n} = R_{t+1} + γR_{t+2} + \dot + γ^{n−1}R_{t+n} + γ^nQ_{t+n−1}(S_{t+n}, A_{t+n})\]

图片 图片 图片

2.3 Q值迭代 (Q-learning)

Sarsa --> on-policy

Q-learning --> off-policy

图片

参考资料

中国科学院大学林姝老师 强化学习课程课件

深度强化学习:基础、研究与应用 (董豪 等)

强化学习入门——从原理到实践,叶强

Reinforcement Learning An Introduction (Adaptive Computation and Machine Learning series) (Sutton, Richard S., Barto, Andrew G.)