连续状态系统基于模型的强化学习
对于大规模的MDP问题,不希望使用查表(Table Lookup)的方式,通过函数近似来估计实际的价值函数的方式,既节约了资源,又能达到泛化的效果。
- $\hat{v}(s,w) = v_\pi (s)$
- $\hat{q}(s,a,w) = q_\pi (s,a)$
- $\hat{\pi}(a,s,w) = \pi (a|s)$
函数近似器
- 特征的线性组合
- 神经网络
- 决策树
- 最近邻方法
- 傅立叶/小波变换
1. 价值函数近似, Value Fuction Approximation, VFA
近似函数逼近的类型:
- input: s, output: $\hat{v}(s,w)$
- input: s, output: $\hat{q}(s,a,w)$
- input: s, output: $\hat{q}(s,a_1,w),\dots,\hat{q}(s,a_m,w)$
1.1 线性函数近似
近似价值函数: $\hat{v}(s,w)=x(s)^Tw$
目标函数: 均方误差。由于实际的价值函数不可知,用样本近似期望损失。
1.2 神经网络值函数近似
参看 深度强化学习 部分。
1.3 基于模型的近似值迭代算法
1.4 模型无关的近似值迭代算法
2. 近似策略迭代
参考资料:
中国科学院大学林姝老师 强化学习课程课件
深度强化学习:基础、研究与应用 (董豪 等)
Reinforcement Learning An Introduction (Adaptive Computation and Machine Learning series) (Sutton, Richard S., Barto, Andrew G.)
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.