连续状态系统基于模型的强化学习

对于大规模的MDP问题，不希望使用查表（Table Lookup）的方式，通过函数近似来估计实际的价值函数的方式，既节约了资源，又能达到泛化的效果。

$\hat{v}(s,w) = v_\pi (s)$

$\hat{q}(s,a,w) = q_\pi (s,a)$

$\hat{\pi}(a,s,w) = \pi (a|s)$

函数近似器

特征的线性组合

神经网络

决策树

最近邻方法

傅立叶/小波变换

1. 价值函数近似, Value Fuction Approximation, VFA

近似函数逼近的类型：

input: s, output: $\hat{v}(s,w)$
input: s, output: $\hat{q}(s,a,w)$
input: s, output: $\hat{q}(s,a_1,w),\dots,\hat{q}(s,a_m,w)$

1.1 线性函数近似

近似价值函数: $\hat{v}(s,w)=x(s)^Tw$

目标函数: 均方误差。由于实际的价值函数不可知，用样本近似期望损失。

1.2 神经网络值函数近似

参看深度强化学习部分。

1.3 基于模型的近似值迭代算法

1.4 模型无关的近似值迭代算法

2. 近似策略迭代

参考资料：

中国科学院大学林姝老师强化学习课程课件

深度强化学习：基础、研究与应用 (董豪等)

Reinforcement Learning An Introduction (Adaptive Computation and Machine Learning series) (Sutton, Richard S., Barto, Andrew G.)

https://www.bilibili.com/video/BV11V411f7bi/?spm_id_from=333.337.search-card.all.click&vd_source=514a3ed3ac370caf4facad7d6f4e1a2d