第一章 动态规划基础 #
1.1 动态规划基本原理 #
- 最优子结构性质
- 重叠子问题特性
- 贝尔曼最优性方程
- 马尔可夫决策过程
1.2 经典动态规划算法 #
- 值迭代算法
- 策略迭代算法
- 策略评估与策略改进
- 线性规划方法
1.3 动态规划的局限性 #
- 维度灾难问题
- 状态空间爆炸
- 计算复杂度分析
- 存储需求挑战
第二章 近似动态规划理论基础 #
2.1 近似动态规划概述 #
- 近似动态规划定义与目标
- 与传统动态规划的区别
- 近似动态规划的应用领域
- 近似动态规划的发展历程
2.2 函数逼近理论 #
- 参数化函数逼近
- 非参数化函数逼近
- 线性函数逼近
- 非线性函数逼近
2.3 近似动态规划收敛性分析 #
- 近似误差分析
- 收敛性条件
- 稳定性分析
- 性能保证理论
第三章 值函数逼近方法 #
3.1 线性值函数逼近 #
- 基函数选择策略
- 特征工程方法
- 最小二乘时序差分
- 递归最小二乘法
3.2 非线性值函数逼近 #
- 神经网络逼近
- 核方法
- 决策树与回归树
- 局部加权回归
3.3 值函数逼近算法 #
- 时序差分学习
- 梯度时序差分学习
- 残差梯度算法
- 最小二乘策略迭代
第四章 策略空间逼近方法 #
4.1 参数化策略表示 #
- 确定性策略参数化
- 随机性策略参数化
- 策略梯度方法
- 自然策略梯度
4.2 直接策略搜索 #
- 策略梯度定理
- REINFORCE算法
- 演员-评论家方法
- 确定性策略梯度
4.3 策略优化技术 #
- 信任域策略优化
- 近端策略优化
- 熵正则化方法
- 策略改进理论
第五章 基于仿真的近似动态规划 #
5.1 蒙特卡洛方法 #
- 首次访问蒙特卡洛
- 每次访问蒙特卡洛
- 离线策略蒙特卡洛
- 在线策略蒙特卡洛
5.2 时序差分学习 #
- TD(λ)算法
- SARSA算法
- Q-learning算法
- 期望SARSA算法
5.3 资格迹技术 #
- 累积资格迹
- 替换资格迹
- 荷兰资格迹
- 真在线TD(λ)
第六章 深度强化学习 #
6.1 深度Q网络 #
- DQN算法原理
- 经验回放机制
- 目标网络技术
- 双Q学习改进
6.2 深度策略梯度方法 #
- 深度确定性策略梯度
- 异步优势演员评论家
- 软演员评论家
- 分布式强化学习
6.3 深度强化学习优化 #
- 优先级经验回放
- 噪声网络
- 分层强化学习
- 元强化学习
第七章 近似动态规划收敛性分析 #
7.1 随机逼近理论 #
- 随机梯度下降收敛性
- ODE方法分析
- 鞅理论应用
- 李雅普诺夫稳定性
7.2 函数逼近误差分析 #
- 逼近误差上界
- 估计误差分析
- 优化误差控制
- 总体误差分解
7.3 算法收敛性保证 #
- 线性函数逼近收敛性
- 非线性函数逼近收敛性
- 策略梯度收敛性
- 演员评论家收敛性
第八章 近似动态规划应用领域 #
8.1 控制系统应用 #
- 自适应控制
- 最优控制
- 机器人控制
- 过程控制
8.2 资源管理应用 #
- 库存管理
- 投资组合优化
- 水资源管理
- 能源系统优化
8.3 其他领域应用 #
- 交通系统优化
- 通信网络管理
- 金融风险管理
- 医疗决策支持
第九章 高级主题与前沿发展 #
9.1 多智能体近似动态规划 #
- 分布式优化
- 博弈论应用
- 合作与竞争学习
- 通信与协调机制
9.2 约束优化问题 #
- 约束马尔可夫决策过程
- 拉格朗日松弛方法
- 安全强化学习
- 机会约束规划
9.3 新兴研究方向 #
- 迁移学习在ADP中的应用
- 元学习技术
- 因果推理方法
- 可解释性ADP系统
第十章 实现与工程实践 #
10.1 算法实现技术 #
- 并行计算架构
- 分布式计算框架
- GPU加速技术
- 内存优化策略
10.2 调参与优化 #
- 超参数优化方法
- 学习率调度策略
- 正则化技术
- 早停与模型选择
10.3 实际部署考虑 #
- 实时性要求
- 计算资源约束
- 安全性保障
- 系统集成问题