强化学习的基础教程（共66页pdf下载） -

标题: 强化学习的基础教程（共66页pdf下载） [打印本页]

作者: suoliwen 时间: 2018-3-21 21:49
标题: 强化学习的基础教程（共66页pdf下载）
强化学习的基础教程

在DP和RL中，控制器（agent，决策者）与过程（环境）进行交互，
通过3种信号：
在每个离散时间步，控制器接收来自过程的状态测量值，并采取一个动作，使得过程迁移到一个新状态，并产生一个奖赏，其中奖赏值用来评估状态迁移的质量。

控制器发出的行为指令是受控于策略的（从状态到动作的函数）。
过程的行为是由它的动态性来描述的，对过程采取动作（由控制器发出的指令）后，状态如何变化。

完整的pdf格式文档51黑下载地址（共66页）：

强化学习.pdf (4.38 MB, 下载次数: 28)

作者: 稻草人1 时间: 2018-8-24 01:30
这个不错哦。。怎么没有人发表下意见啊？

作者: leng 时间: 2019-9-9 15:29
没有看懂哦油焖大虾出来解释一下

作者: wan.yahui 时间: 2020-4-28 13:26
不错哦

欢迎光临 (http://www.51hei.com/bbs/)