人工智能深度学习 chatgpt gpt-3 深度强化学习（DRL）算法系列文章合集

MiracleF49 博客 2024-03-21 64 0

1. 深度强化学习（DRL）算法 1 —— REINFORCE

2. 深度强化学习（DRL）算法 2 —— PPO 之 Clipped Surrogate Objective 篇

3. 深度强化学习（DRL）算法 2 —— PPO 之 GAE 篇

4. 深度强化学习（DRL）算法 3 —— Deep Q-learning(DQN)

5. 深度强化学习（DRL）算法 4 —— Deep Deterministic Policy Gradient (DDPG)

6. 深度强化学习（DRL）算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)

7. 深度强化学习（DRL）算法附录1 —— 贝尔曼公式

8. 深度强化学习（DRL）算法附录 2 —— 策略迭代和价值迭代

9. 深度强化学习（DRL）算法附录 3 —— 蒙特卡洛方法（MC）和时序差分（TD）

10.深度强化学习（DRL）算法附录 4 —— 一些常用概念（KL 散度、最大熵 MDP etc.）

11. 深度强化学习（DRL）算法附录 5 —— CV 基础回顾篇

12. 深度强化学习（DRL）算法附录 6 —— NLP 回顾之预训练模型篇

这个系列介绍了常用的单智能体强化学习方法，也有些没有写到，比如 SAC，希望以后有时间可以回来补完。还有多智能体算法这个系列没有涉及，希望以后可以有时间谢谢多智能体算法。最后用一句话暂时结束这个系列：

奋斗，追求，不达目的，誓不罢休！ ——《船长与大尉》

下个系列会开始介绍 RLXF（包括 RLHF、RLAIF）欢迎关注。

好文阅读

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-03-21 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713531750.html

夸智网