一、强化学习RL

机器学习 = 寻找一个函数 = RL

RL:

Actor行动者

Environment环境

观察+动作

状态s、行为a。

无法梯度下降。

二、策略下降

a的定义:

离线策略下降。

随机性

三、Actor-Critic

Critic评估状态的好坏。

四、Reward Shaping

额外的回报

五、No Reward:模仿学习