Agazigi

❯

💻研究&笔记

❯

🤖AI Is All You Need

❯

李宏毅深度学习

❯

12_1_RL

2026年1月20日1分钟阅读

深度学习

一、强化学习RL

机器学习 = 寻找一个函数 = RL

RL：

Actor行动者

Environment环境

观察+动作

状态s、行为a。

无法梯度下降。

二、策略下降

a的定义：

离线策略下降。

随机性

三、Actor-Critic

Critic评估状态的好坏。

四、Reward Shaping

额外的回报

五、No Reward：模仿学习

关系图谱

一、强化学习RL
二、策略下降
三、Actor-Critic
四、Reward Shaping
五、No Reward：模仿学习

Created with Quartz v4.5.1 © 2026

GitHub