强化学习的基础教程（共66页pdf下载）

ID:295255 · 发表于 2018-3-21 21:49

强化学习的基础教程

在DP和RL中，控制器（agent，决策者）与过程（环境）进行交互，
通过3种信号：
在每个离散时间步，控制器接收来自过程的状态测量值，并采取一个动作，使得过程迁移到一个新状态，并产生一个奖赏，其中奖赏值用来评估状态迁移的质量。

控制器发出的行为指令是受控于策略的（从状态到动作的函数）。
过程的行为是由它的动态性来描述的，对过程采取动作（由控制器发出的指令）后，状态如何变化。