|
000
|
01751nam 2200325 450
|
|
001
|
012025000581
|
|
005
|
20240806093854.2
|
|
010
|
|
@a978-7-122-45282-5@dCNY69.80
|
|
100
|
|
@a20240806d2024 em y0chiy50 ea
|
|
101
|
0
|
@achi
|
|
102
|
|
@aCN@b110000
|
|
105
|
|
@aak z 000yy
|
|
106
|
|
@ar
|
|
200
|
1
|
@a强化学习@Aqiang hua xue xi@d= Introduction to reinforcement learning@e人工智能如何知错能改@f龚超 ... [等] 著@zeng
|
|
210
|
|
@a北京@c化学工业出版社@d2024.8
|
|
215
|
|
@a234页@c图@d21cm
|
|
225
|
2
|
@a人工智能超入门丛书@Aren gong zhi neng chao ru men cong shu
|
|
304
|
|
@a题名页题: 龚超, 王冀, 梁霄, 贵宁著
|
|
314
|
|
@a龚超, 工学博士, 清华大学日本研究中心主任助理, 中日创新中心主任研究员, 深圳清华大学研究院下一代互联网研发中心核心成员, 海口经济学院雅和人居工程学院客座教授。王冀, 工学博士, 西北工业大学计算机学院助理教授, 研究方向为关键数据提取及图像编码。梁霄, 中国人民大学附属中学教师, 信息学竞赛教练, 本科毕业于清华大学电子工程系, 博士毕业于清华大学计算机系。
|
|
330
|
|
@a本书内容包含强化学习方向的基础知识, 如动态规划、时序差分等, 让读者在开始学习时对强化学习有初步的认识; 之后, 通过对马尔可夫决策过程及贝尔曼方程的解读, 逐渐过渡到强化学习的关键内容; 同时, 本书也解析了策略迭代与价值迭代两种核心算法, 也对蒙特卡洛方法、时序差分算法、深度强化学习及基于策略的强化学习算法进行了剖析。
|
|
410
|
0
|
@12001 @a人工智能超入门丛书
|
|
510
|
1
|
@aIntroduction to reinforcement learning@zeng
|
|
517
|
1
|
@a人工智能如何知错能改@Aren gong zhi neng ru he zhi cuo neng gai
|
|
606
|
0
|
@a人工智能@Aren gong zhi neng@j普及读物
|
|
690
|
|
@aTP@v5
|
|
701
|
0
|
@a龚超@Agong chao@4著
|
|
701
|
0
|
@a王冀@Awang ji@4著
|
|
701
|
0
|
@a梁霄@Aliang xiao@4著
|
|
801
|
0
|
@aCN@bCDNYKJZYXY@c20240806
|
|
905
|
|
@aCDNYKJZYXY@b300727948-50@dTP@e448@f3
|
|
|
|
|
| |
| 强化学习= Introduction to reinforcement learning:人工智能如何知错能改/龚超 ... [等] 著.-北京:化学工业出版社,2024.8 |
| 234页:图;21cm.-(人工智能超入门丛书) |
| |
| |
| ISBN 978-7-122-45282-5:CNY69.80 |
| 本书内容包含强化学习方向的基础知识, 如动态规划、时序差分等, 让读者在开始学习时对强化学习有初步的认识; 之后, 通过对马尔可夫决策过程及贝尔曼方程的解读, 逐渐过渡到强化学习的关键内容; 同时, 本书也解析了策略迭代与价值迭代两种核心算法, 也对蒙特卡洛方法、时序差分算法、深度强化学习及基于策略的强化学习算法进行了剖析。 |
| ● |
正题名:强化学习
索取号:TP/448
 
预约/预借
| 序号
|
登录号
|
条形码
|
馆藏地/架位号
|
状态
|
备注
|
|
1
|
727948
|
300727948
|
柳城-4楼/柳城-4楼61架4列6层/
[索取号:TP/448]
|
在馆
|
|
|
2
|
727949
|
300727949
|
柳城-4楼/柳城-4楼61架4列6层/
[索取号:TP/448]
|
在馆
|
|
|
3
|
727950
|
300727950
|
柳城-4楼/柳城-4楼61架4列6层/
[索取号:TP/448]
|
在馆
|
|