强化学习的基础教程（共66页pdf下载）

ID:295255 · 发表于 2018-3-21 21:49

强化学习的基础教程

在DP和RL中，控制器（agent，决策者）与过程（环境）进行交互，
通过3种信号：
在每个离散时间步，控制器接收来自过程的状态测量值，并采取一个动作，使得过程迁移到一个新状态，并产生一个奖赏，其中奖赏值用来评估状态迁移的质量。

控制器发出的行为指令是受控于策略的（从状态到动作的函数）。
过程的行为是由它的动态性来描述的，对过程采取动作（由控制器发出的指令）后，状态如何变化。

完整的pdf格式文档51黑下载地址（共66页）：

强化学习.pdf (4.38 MB, 下载次数: 28)

ID:389477 · 发表于 2018-8-24 01:30

这个不错哦。。怎么没有人发表下意见啊？

ID:295535 · 发表于 2019-9-9 15:29

没有看懂哦油焖大虾出来解释一下

ID:739511 · 发表于 2020-4-28 13:26

不错哦

帐号		自动登录	找回密码
密码			立即注册

强化学习的基础教程（共66页pdf下载）

评分