找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 4843|回复: 3
打印 上一主题 下一主题
收起左侧

强化学习的基础教程(共66页pdf下载)

[复制链接]
跳转到指定楼层
楼主
强化学习的基础教程

在DP和RL中,控制器(agent,决策者)与过程(环境)进行交互,
通过3种信号:
在每个离散时间步,控制器接收来自过程的状态测量值,并采取一个动作,使得过程迁移到一个新状态,并产生一个奖赏,其中奖赏值用来评估状态迁移的质量。

控制器发出的行为指令是受控于策略的(从状态到动作的函数)。
过程的行为是由它的动态性来描述的,对过程采取动作(由控制器发出的指令)后,状态如何变化。



完整的pdf格式文档51黑下载地址(共66页):
强化学习.pdf (4.38 MB, 下载次数: 28)



评分

参与人数 1黑币 +1 收起 理由
稻草人1 + 1 绝世好帖!

查看全部评分

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏1 分享淘帖 顶 踩
回复

使用道具 举报

沙发
ID:389477 发表于 2018-8-24 01:30 | 只看该作者
这个不错哦。。怎么没有人发表下意见啊?
回复

使用道具 举报

板凳
ID:295535 发表于 2019-9-9 15:29 | 只看该作者
没有看懂哦  油焖大虾出来解释一下
回复

使用道具 举报

地板
ID:739511 发表于 2020-4-28 13:26 | 只看该作者
不错哦
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|51黑电子论坛 |51黑电子论坛6群 QQ 管理员QQ:125739409;技术交流QQ群281945664

Powered by 单片机教程网

快速回复 返回顶部 返回列表