找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 5990|回复: 3
收起左侧

强化学习的基础教程(共66页pdf下载)

[复制链接]
ID:295255 发表于 2018-3-21 21:49 | 显示全部楼层 |阅读模式
强化学习的基础教程
0.jpg 0.jpg 0.jpg 0.jpg
在DP和RL中,控制器(agent,决策者)与过程(环境)进行交互,
通过3种信号:
在每个离散时间步,控制器接收来自过程的状态测量值,并采取一个动作,使得过程迁移到一个新状态,并产生一个奖赏,其中奖赏值用来评估状态迁移的质量。

控制器发出的行为指令是受控于策略的(从状态到动作的函数)。
过程的行为是由它的动态性来描述的,对过程采取动作(由控制器发出的指令)后,状态如何变化。
0.jpg 0.jpg 0.jpg 0.jpg


完整的pdf格式文档51黑下载地址(共66页):
强化学习.pdf (4.38 MB, 下载次数: 28)



评分

参与人数 1黑币 +1 收起 理由
稻草人1 + 1 绝世好帖!

查看全部评分

回复

使用道具 举报

ID:389477 发表于 2018-8-24 01:30 | 显示全部楼层
这个不错哦。。怎么没有人发表下意见啊?
回复

使用道具 举报

ID:295535 发表于 2019-9-9 15:29 | 显示全部楼层
没有看懂哦  油焖大虾出来解释一下
回复

使用道具 举报

ID:739511 发表于 2020-4-28 13:26 | 显示全部楼层
不错哦
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|51黑电子论坛 |51黑电子论坛6群 QQ 管理员QQ:125739409;技术交流QQ群281945664

Powered by 单片机教程网

快速回复 返回顶部 返回列表