1. 深度强化学习(DRL)算法 1 —— REINFORCE

2. 深度强化学习(DRL)算法 2 —— PPO 之 Clipped Surrogate Objective 篇

3. 深度强化学习(DRL)算法 2 —— PPO 之 GAE 篇

4. 深度强化学习(DRL)算法 3 —— Deep Q-learning(DQN)

5. 深度强化学习(DRL)算法 4 —— Deep Deterministic Policy Gradient (DDPG)

6. 深度强化学习(DRL)算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)

7. 深度强化学习(DRL)算法 附录1 —— 贝尔曼公式

8. 深度强化学习(DRL)算法 附录 2 —— 策略迭代和价值迭代

9. 深度强化学习(DRL)算法 附录 3 —— 蒙特卡洛方法(MC)和时序差分(TD)

10.深度强化学习(DRL)算法 附录 4 —— 一些常用概念(KL 散度、最大熵 MDP etc.)

11. 深度强化学习(DRL)算法 附录 5 —— CV 基础回顾篇

12. 深度强化学习(DRL)算法 附录 6 —— NLP 回顾之预训练模型篇

这个系列介绍了常用的单智能体强化学习方法,也有些没有写到,比如 SAC,希望以后有时间可以回来补完。还有多智能体算法这个系列没有涉及,希望以后可以有时间谢谢多智能体算法。最后用一句话暂时结束这个系列:

奋斗,追求,不达目的,誓不罢休! ——《船长与大尉》

下个系列会开始介绍 RLXF(包括 RLHF、RLAIF)欢迎关注。

好文阅读

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。