强化学习
Phil Winder
邹伟, 康俊鹏, 王伟 译
出版时间:2023年02月
页数:427
“强化学习出色地展示了它的技术背景、发展前景和未来机会,它将显著的推进数据科学家在其业务上的工作方式。”
——David Aronchick
Kubeflow联合创始人
“对于任何想要应用强化学习技术来解决现实问题的人来说,这本书都是必读的。它将以实践中的案例和细致的解释,带领读者漫游强化学习的第一个定理到顶会的前沿技术。”
——David Foster
应用数据科学合伙人
“伟大著作!本书详细解释了被实践验证的那些强化学习方法,它们被封装形成了软件开发人员的标准库。”
——Danny Lange
Unity人工智能高级副总裁

强化学习将是未来十年在人工智能领域的最大突破之一,强化学习算法能够使得智能体在环境中学习任意目标。这一令人兴奋的发展打破了传统机器学习的算法约束。这本实用的书向数据科学和人工智能专业人员展示了如何通过强化的手段使机器能够自己
学习。
本书作者创办了自己名字命名的研究型公司,本书涵盖了从基本的构建模块到最先进的实践。通过本书,你将探索强化学习的当前状态、关注工业应用、学习大量算法,本书还有专门章节介绍如何将强化学习的解决方案部署到生产环节。这并不是一本随用随翻的工具书,书中包含很多数学知识,并期望读者是熟悉机器学习的。
● 学习强化学习是什么,以及算法如何解决具体问题。
● 掌握强化学习的基础知识,包括马尔可夫决策过程、动态规划和时间差分算法。
● 深入研究一系列基于值函数和政策梯度的算法。
● 应用先进的强化学习解决方案,如元学习、分层学习、多智能体、模仿学习等。
● 了解最前沿的深度强化学习算法,包括Rainbow、PPO、TD3、SAC等。
● 通过本书专门的配套网站获得实践代码和案例。
  1. 前言
  2. 第1章 强化学习概述
  3. 1.1 为什么现在就需要强化学习?
  4. 1.2 机器学习
  5. 1.3 强化学习
  6. 1.3.1 什么时候使用强化学习
  7. 1.3.2 强化学习的应用场景
  8. 1.4 强化学习的种类
  9. 1.4.1 免模型学习或有模型学习
  10. 1.4.2 智能体如何使用并更新它们的策略
  11. 1.4.3 离散或连续的行为
  12. 1.4.4 优化方法
  13. 1.4.5 策略评估和改进
  14. 1.5 强化学习的基本概念
  15. 1.5.1 历史上第一个强化学习算法
  16. 1.5.2 强化学习和机器学习是一种东西吗?
  17. 1.5.3 奖励和反馈
  18. 1.6 强化学习的发展简史
  19. 1.7 本章总结
  20. 1.8 扩展阅读
  21. 1.9 参考文献
  22. 第2章 马尔可夫决策过程,动态规划,蒙特卡洛方法
  23. 2.1 多臂老虎机测试
  24. 2.1.1 奖励工程
  25. 2.1.2 策略评估:价值函数
  26. 2.1.3 策略改进:选择最佳动作
  27. 2.1.4 模拟环境
  28. 2.1.5 运行实验
  29. 2.1.6 E-贪婪算法的改进
  30. 2.2 马尔可夫决策过程
  31. 2.2.1 库存控制
  32. 2.2.2 库存控制仿真
  33. 2.3 策略与价值函数
  34. 2.3.1 打折的奖励
  35. 2.3.2 用状态–价值函数预测奖励
  36. 2.3.3 用动作值函数预测奖励
  37. 2.3.4 最优策略
  38. 2.4 蒙特卡洛策略生成
  39. 2.5 动态规划的值迭代
  40. 2.5.1 值迭代的过程
  41. 2.5.2 数值迭代结果
  42. 2.6 总结
  43. 2.7 扩展阅读
  44. 2.8 参考文献
  45. 第3章 时序差分学习,Q学习和n步算法
  46. 3.1 时序差分学习的相关公式
  47. 3.1.1 Q学习
  48. 3.1.2 SARSA
  49. 3.1.3 Q学习与SARSA方法的对比
  50. 3.1.4 案例解析:自动扩展应用程序容器以降低成本
  51. 3.2 行业实例:广告中的实时竞价
  52. 3.2.1 MDP的定义
  53. 3.2.2 实时竞价案例的环境
  54. 3.2.3 进一步改进
  55. 3.3 Q学习的相关扩展
  56. 3.3.1 双重Q学习
  57. 3.3.2 延迟Q学习
  58. 3.3.3 各类版本的Q学习之间的对比
  59. 3.3.4 对抗学习
  60. 3.4 n步算法
  61. 3.5 有效跟踪
  62. 3.6 有效跟踪算法的扩展
  63. 3.6.1 沃特金斯的Q(λ)
  64. 3.6.2 沃特金斯Q(λ)的模糊擦除
  65. 3.6.3 快速Q学习
  66. 3.6.4 积累式有效跟踪与取代式有效跟踪
  67. 3.7 总结
  68. 3.8 扩展阅读
  69. 3.9 参考文献
  70. 第4章 深度Q网络
  71. 4.1 深度学习的体系结构
  72. 4.1.1 基础知识
  73. 4.1.2 深度学习架构
  74. 4.1.3 深度学习库
  75. 4.1.4 深度强化学习
  76. 4.2 深度Q学习
  77. 4.2.1 经验重放
  78. 4.2.2 克隆Q网络
  79. 4.2.3 神经网络结构
  80. 4.2.4 DQN的实现
  81. 4.2.5 实际案例:倒立摆环境中的DQN
  82. 4.2.6 案例研究:减少建筑物的能源使用
  83. 4.3 彩虹DQN
  84. 4.3.1 分配强化学习
  85. 4.3.2 优先经验重放
  86. 4.3.3 噪声网络
  87. 4.3.4 决斗网络
  88. 4.4 实际案例:雅达利的彩虹DQN
  89. 4.4.1 结果
  90. 4.4.2 讨论
  91. 4.5 其他DQN改进
  92. 4.5.1 改进探索过程
  93. 4.5.2 改进奖励过程
  94. 4.5.3 从离线数据中进行学习
  95. 4.6 总结
  96. 4.7 扩展阅读
  97. 4.8 参考文献
  98. 第5章 梯度策略
  99. 5.1 直接学习策略的优势
  100. 5.2 如何计算策略的梯度
  101. 5.3 策略梯度理论
  102. 5.4 策略函数
  103. 5.4 1 线性策略
  104. 5.4.2 其他策略
  105. 5.5 基本实现
  106. 5.5.1 蒙特卡洛算法(强化算法)
  107. 5.5.2带基线的强化算法
  108. 5.5.3 梯度方差的减小
  109. 5.5.4 n步演员评论家和优势演员评论家(A2C)
  110. 5.5.5 基于资格迹的演员评论家算法
  111. 5.5.6 基本策略梯度算法的比较
  112. 5.6 行业研究:为客户自动提供产品
  113. 5.6.1 行业实例:Gym环境中的购物车实验
  114. 5.6.2 预设期望
  115. 5.6.3 购物车实验环境的结果展示
  116. 5.7 总结
  117. 5.8 扩展阅读
  118. 5.9 参考文献
  119. 第6章 超越策略梯度
  120. 6.1 离线算法
  121. 6.1.1 重要性抽样
  122. 6.1.2 行为和目标策略
  123. 6.1.3 离线Q学习
  124. 6.1.4 梯度时差学习
  125. 6.1.5 Greedy-GQ算法
  126. 6.1.6 离线演员评论家算法
  127. 6.2 决定性策略梯度
  128. 6.2.1 决定性策略梯度
  129. 6.2.2 深度确定性策略梯度
  130. 6.2.3 双延迟DDPG
  131. 6.2.4 案例研究:利用到用户评论的推荐算法
  132. 6.2.5 改进DPG
  133. 6.3 信赖域方法
  134. 6.3.1 Kullback-Leibler散度
  135. 6.3.2 自然策略梯度与信任区域策略优化
  136. 6.3.3 近端策略优化
  137. 6.4 实际案例:在现实生活中使用伺服器
  138. 6.4.1 实验设置
  139. 6.4.2 强化学习算法实现
  140. 6.4.3 增加算法的复杂度
  141. 6.4.4 模拟中的超参数调优
  142. 6.4.5 产生的策略
  143. 6.5 其他策略梯度算法
  144. 6.5.1 回溯(λ)
  145. 6.5.2 有经验重放的演员评论家(ACER)
  146. 6.5.3 使用Kronecker因子信任区域的演员评论家算法(ACKTR)
  147. 6.5.4 更多相关方法
  148. 6.6 策略梯度算法的扩展
  149. 6.7 总结
  150. 6.7.1 应该使用哪种算法?
  151. 6.7.2 关于异步方法的注意事项
  152. 6.8 扩展阅读
  153. 6.9 参考文献
  154. 第7章 用熵方法学习所有可能的策略
  155. 7.1 什么是熵?
  156. 7.2 最大熵强化学习
  157. 7.3 弱演员评论家算法
  158. 7.3.1 SAC的实现细节与离散动作空间
  159. 7.3.2 自动调整温度
  160. 7.3.3 案例研究:有助于减少交通拥堵的自动化交通管理系统
  161. 7.4 最大熵方法的推广
  162. 7.4.1 熵的其他度量(以及策略集)
  163. 7.4.2 基于双重Q学习上限的优化探索
  164. 7.4.3 通过历史经验重放改进结果
  165. 7.4.4 软策略梯度
  166. 7.4.5 软Q学习(及其扩展)
  167. 7.4.6 路径一致性学习
  168. 7.5 性能比较:SAC与PPO
  169. 7.6 熵是如何激励智能体进行探索的?
  170. 7.7 行业实例:通过遥控车学习自动驾驶
  171. 7.7.1 问题描述
  172. 7.7.2 减少训练时间
  173. 7.7.3 夸张的动作
  174. 7.7.4 超参数探索
  175. 7.7.5 最终策略
  176. 7.7.6 进一步改进
  177. 7.8 本章总结
  178. 7.8.1 策略梯度与软Q学习的等价性
  179. 7.8.2 这对今后的发展意味着什么?
  180. 7.8.3 这对目前来说意味着什么?
  181. 7.9 参考文献
  182. 第8章 改进智能体的学习方式
  183. 8.1 关于MDP的思考
  184. 8.1.1 部分可观察马尔可夫决策过程
  185. 8.1.2 案例研究:POMDP在自动驾驶汽车中的应用
  186. 8.1.3 上下文马尔可夫决策过程
  187. 8.1.4 动作不断变化的MDPs
  188. 8.1.5 正则化MDP
  189. 8.2 层次强化学习
  190. 8.2.1 初级层次强化学习
  191. 8.2.2 具有内在奖励的层次强化学习(HIRO)
  192. 8.2.3 学习技巧和无监督学习
  193. 8.2.4 在HRL中使用技能
  194. 8.2.5 HRL研究结论
  195. 8.3 多智能体强化学习
  196. 8.3.1 MARL的框架
  197. 8.3.2 集中式或分布式
  198. 8.3.3 单智能体算法
  199. 8.3.4 案例研究:单智能体分散学习在无人机中的应用
  200. 8.3.5 集中学习,分散执行
  201. 8.3.6 分散的学习
  202. 8.3.7 其他的组合
  203. 8.3.8 MARL的挑战
  204. 8.3.9 MARL的结论
  205. 8.4 专家的指导
  206. 8.4.1 克隆行为
  207. 8.4.2 模拟强化学习
  208. 8.4.3 反向强化学习
  209. 8.4.4 课程学习
  210. 8.5 其他案例
  211. 8.5.1 元学习
  212. 8.5.2 迁移学习
  213. 8.6 总结
  214. 8.7 扩展阅读
  215. 8.8 参考文献
  216. 第9章 强化学习实践
  217. 9.1 强化学习的生命周期
  218. 9.2 问题定义:一个真正的强化学习项目到底包括什么?
  219. 9.2.1 强化学习问题是连续性问题
  220. 9.2.2 强化学习问题是战略性问题
  221. 9.2.3 强化学习中的基础指标
  222. 9.2.4 学习类型
  223. 9.3 强化学习工程和改进
  224. 9.3.1 项目过程
  225. 9.3.2 环境工程
  226. 9.3.3 状态工程或状态表示学习
  227. 9.3.4 策略工程
  228. 9.3.5 将策略映射到操作空间
  229. 9.3.6 探索
  230. 9.3.7 奖励工程
  231. 9.4 总结
  232. 9.5 扩展阅读
  233. 9.6 参考文献
  234. 第10章 强化学习的生产部署
  235. 10.1 实现阶段
  236. 10.1.1框架
  237. 10.1.2 大规模强化学习
  238. 10.1.3 评价
  239. 10.2 部署
  240. 10.2.1 目标
  241. 10.2.2 体系架构
  242. 10.2.3 辅助工具
  243. 10.2.4 安全、保障和道德
  244. 10.3 总结
  245. 10.4 扩展阅读
  246. 10.5 参考文献
  247. 第11章 结论与展望
  248. 11.1 提示和技巧
  249. 11.1.1 框架问题
  250. 11.1.2 你的数据
  251. 11.1.3 训练
  252. 11.1.4 评价
  253. 11.1.5部署
  254. 11.2 调试
  255. 11.2.1 ${ALGORITHM_NAME}不能解决${ENVIRONMENT}!
  256. 11.2.2 监测调试
  257. 11.3 强化学习的未来
  258. 11.3.1 强化学习市场机会
  259. 11.3.2 强化学习的研究方向
  260. 11.4 结束语
  261. 11.4.1 未来下一步
  262. 11.4.2 现在轮到你了!
  263. 11.5 扩展阅读
  264. 11.6 参考文献
  265. 附录A 两种动作的Logistic策略梯度
  266. 附录B Softmax的策略梯度
书名:强化学习
作者:Phil Winder
译者:邹伟, 康俊鹏, 王伟 译
国内出版社:中国电力出版社
出版时间:2023年02月
页数:427
书号:978-7-5198-6961-8
原版书书名:Reinforcement Learning
原版书出版商:O'Reilly Media
Phil Winder
 
Phil Winder博士是一名多学科交叉的软件工程师、数据科学家,以及温德研究所(https://WinderResearch.com/?utm_source=oreilly&utm_medium=book&utm_campaign=rl)的CEO。该研究所主要提供云计算科学咨询,主营业务是帮助初创企业和其他企业基于数据改进流程、平台和产品。他专门从事生产级云端机器学习的本地实现,也是机器学习运维的早期支持者。
他在各类公开论坛、个体网站以及O’Reilly在线学习平台上开设的数据科学课程,已经让数千名工程师受益。他的课程专注于工业级的数据科学应用,涵盖了从数据清理到深度强化学习等各类热门但实用的主题,经常活跃在数据科学领域并发表相关演讲。
Phil毕业于英国赫尔大学,获取了电子工程专业的硕士和博士学位,现居英国约克郡,家里有他喜爱的一整套酿酒设备和他的家人。
如需任何支持或建议,请通过以下方式与作者联系:
网站:https://WinderResearch.com。
电子邮件:phil@winderresearch.com。
LinkedIn:DrPhilWinder (https://www.linkedin.com/in/DrPhilWinder/)。
Twitter:@DrPhilWinder (https://twitter.com/DrPhilWinder)。
 
 
本书封面上的动物是一只非洲黑脚企鹅(学名:Spheniscus demersus)。该企鹅属下的四个物种被统称称为带状企鹅,因为它们的身体周围有黑色带。这些企鹅的背部也是黑色,其黑色的喙上有一条白色的细长垂直带,腹部有斑点,眼睛周围有一块区域没有羽毛的裸露皮肤。
这些企鹅生活在非洲西南海岸,分布在24个岛屿上,只有少数生活在非洲大陆上。
19世纪初,它们非洲大约有400万只。如今,其种群数量已经下降了95%。据估计,非洲黑脚企鹅将在未来10年内灭绝。它们当前面临着许多威胁,包括急剧减少的食物来源等。因为它们主要食物来源是一些当地的海洋鱼类,而这些鱼类对水温上升很敏感。
非洲黑脚企鹅的种群存续岌岌可危。O’Reilly的书籍封面上的许多动物都濒临灭绝,对于我们这个世界来说,它们中的每一个都很重要。
封面插图由Karen Montgomery根据Lydekker’s Royal Natural History中的一幅黑白版画绘制。
购买选项
定价:128.00元
书号:978-7-5198-6961-8
出版社:中国电力出版社