妙思文献管理集成系统WWW检索

书目信息

表格格式
工作单格式
卡片格式

书名：	Python深度强化学习入门
作者：	伊藤多一，今津义充，须藤广大著；王卫兵，杨秋香译
出版信息：	北京机械工业出版社 2022.4
开本页数：	24cm xi, 239页
丛书名：
单册：
中图分类：	TP311.56
科图分类：
主题词：	软件工具--ruan jian gong ju--程序设计
电子资源：
ISBN：	978-7-111-70072-2

000	02471nam0 2200337 450
001	012022000056
005	20220425112842.2
010		@a978-7-111-70072-2@dCNY89.00
100		@a20220425d2022 em y0chiy50 ea
101	1	@achi@cjpn
102		@aCN@b110000
105		@aak a 000yy
106		@ar
200	1	@aPython深度强化学习入门@APython shen du qiang hua xue xi ru men@e强化学习和深度学习的搜索与控制@f(日) 伊藤多一 ... [等] 著@g王卫兵, 杨秋香等译
210		@a北京@c机械工业出版社@d2022.4
215		@axi, 239页@c图@d24cm
304		@a题名页题: (日) 伊藤多一, 今津义充, 须藤广大, 仁平将人, 川崎悠介等著
306		@a本书由翔泳社授权机械工业出版社在中国大陆地区 (不包括香港、澳门特别行政区及台湾地区) 出版与发行
314		@a伊藤多一, 1995年在名古屋大学理学研究所完成博士课程, 并获得博士学位。今津义充, 博士学位 (理学), 熟悉统计分析、模型构建以及基于数值分析的基本粒子和核物理研究。自2013年以来, 领导了BrainPad公司的定量分析项目, 例如需求预测和数学优化等。近年来, 一直从事利用深度学习技术的项目分析和应用研究。须藤广大, 在奈良科学技术学院主修自然语言处理, 获得硕士学位 (信息工程)。后以新毕业生的身份加入BrainPad公司, 并以机器学习工程师的身份从事与深度学习相关的项目分析和开发。
320		@a有书目 (第238-239页)
330		@a本书共7章。第1章介绍了机器学习的分类、强化学习的学习机制以及深度强化学习的概念; 第2章通过强化学习的基本概念、马尔可夫决策过程和贝尔曼方程、贝尔曼方程的求解方法、无模型控制等介绍了强化学习的基本算法; 第3章通过深度学习、卷积神经网络 (CNN)、循环神经网络 (RNN)介绍了强化学习中深度学习的特征提取方法; 第4章通过行动价值函数的网络表示、策略函数的网络表示介绍了深度强化学习的实现; 第5章通过策略梯度法的连续控制、学习算法和策略模型等, 详细介绍了深度强化学习在连续控制问题中的应用及具体实现; 第6章通过巡回推销员问题和魔方问题详细介绍了深度强化学习在组合优化中的应用及具体实现; 第7章通过SeqGAN的文本生成和神经网络架构的搜索详细介绍了深度强化学习在时间序列数据生成的应用。在附录中还给出了Colaboratory和Docker等深度强化学习开发环境的构建。
517	1	@a强化学习和深度学习的搜索与控制@Aqiang hua xue xi he shen du xue xi de sou suo yu kong zhi
606	0	@a软件工具@Aruan jian gong ju@x程序设计
690		@aTP311.56@v5
701	0	@a伊藤多一@Ayi teng duo yi@4著
701	0	@a今津义充@Ajin jin yi chong@4著
701	0	@a须藤广大@Axu teng guang da@4著
702	0	@a王卫兵@Awang wei bing@4译
702	0	@a杨秋香@Ayang qiu xiang@4译
801	0	@aCN@bCDNYKJZYXY@c20220425
905		@aCDNYKJZYXY@b300673970-1@dTP311.56@e294@f2

Python深度强化学习入门：强化学习和深度学习的搜索与控制/(日) 伊藤多一 ... [等] 著/王卫兵, 杨秋香等译.-北京：机械工业出版社，2022.4

xi, 239页：图；24cm

ISBN 978-7-111-70072-2：CNY89.00

本书共7章。第1章介绍了机器学习的分类、强化学习的学习机制以及深度强化学习的概念; 第2章通过强化学习的基本概念、马尔可夫决策过程和贝尔曼方程、贝尔曼方程的求解方法、无模型控制等介绍了强化学习的基本算法; 第3章通过深度学习、卷积神经网络 (CNN)、循环神经网络 (RNN)介绍了强化学习中深度学习的特征提取方法; 第4章通过行动价值函数的网络表示、策略函数的网络表示介绍了深度强化学习的实现; 第5章通过策略梯度法的连续控制、学习算法和策略模型等, 详细介绍了深度强化学习在连续控制问题中的应用及具体实现; 第6章通过巡回推销员问题和魔方问题详细介绍了深度强化学习在组合优化中的应用及具体实现; 第7章通过SeqGAN的文本生成和神经网络架构的搜索详细介绍了深度强化学习在时间序列数据生成的应用。在附录中还给出了Colaboratory和Docker等深度强化学习开发环境的构建。

●

序号	登录号	条形码	馆藏地/架位号	状态	备注
1	673970	300673970	海科-1楼/4架5列5层/ [索取号:TP311.56/294]	在馆
2	673971	300673971	海科-1楼/4架5列4层/ [索取号:TP311.56/294]	在馆