对于大规模的MDP问题,不希望使用查表(Table Lookup)的方式,通过函数近似来估计实际的价值函数的方式,既节约了资源,又能达到泛化的效果。

  • $\hat{v}(s,w) = v_\pi (s)$
  • $\hat{q}(s,a,w) = q_\pi (s,a)$
  • $\hat{\pi}(a,s,w) = \pi (a|s)$

函数近似器

  • 特征的线性组合
  • 神经网络
  • 决策树
  • 最近邻方法
  • 傅立叶/小波变换

1. 价值函数近似, Value Fuction Approximation, VFA

近似函数逼近的类型:

  • input: s, output: $\hat{v}(s,w)$
  • input: s, output: $\hat{q}(s,a,w)$
  • input: s, output: $\hat{q}(s,a_1,w),\dots,\hat{q}(s,a_m,w)$

1.1 线性函数近似

近似价值函数: $\hat{v}(s,w)=x(s)^Tw$

目标函数: 均方误差。由于实际的价值函数不可知,用样本近似期望损失。

图1

1.2 神经网络值函数近似

参看 深度强化学习 部分。

1.3 基于模型的近似值迭代算法

1.4 模型无关的近似值迭代算法

2. 近似策略迭代

图2

参考资料

中国科学院大学林姝老师 强化学习课程课件

深度强化学习:基础、研究与应用 (董豪 等)

Reinforcement Learning An Introduction (Adaptive Computation and Machine Learning series) (Sutton, Richard S., Barto, Andrew G.)

https://www.bilibili.com/video/BV11V411f7bi/?spm_id_from=333.337.search-card.all.click&vd_source=514a3ed3ac370caf4facad7d6f4e1a2d