标题: 强化学习的基础教程(共66页pdf下载) [打印本页]

作者: suoliwen    时间: 2018-3-21 21:49
标题: 强化学习的基础教程(共66页pdf下载)
强化学习的基础教程

在DP和RL中,控制器(agent,决策者)与过程(环境)进行交互,
通过3种信号:
在每个离散时间步,控制器接收来自过程的状态测量值,并采取一个动作,使得过程迁移到一个新状态,并产生一个奖赏,其中奖赏值用来评估状态迁移的质量。

控制器发出的行为指令是受控于策略的(从状态到动作的函数)。
过程的行为是由它的动态性来描述的,对过程采取动作(由控制器发出的指令)后,状态如何变化。



完整的pdf格式文档51黑下载地址(共66页):
强化学习.pdf (4.38 MB, 下载次数: 28)




作者: 稻草人1    时间: 2018-8-24 01:30
这个不错哦。。怎么没有人发表下意见啊?
作者: leng    时间: 2019-9-9 15:29
没有看懂哦  油焖大虾出来解释一下
作者: wan.yahui    时间: 2020-4-28 13:26
不错哦





欢迎光临 (http://www.51hei.com/bbs/) Powered by Discuz! X3.1