构建机器学习应用
Emmanuel Ameisen
杜春晓, 赵巍 译
出版时间:2023年04月
页数:264
“机器学习最难的内容是:提炼问题、调试模型和将模型部署给用户使用。很多书都选择跳过,而本书则重点讲解它们。掌握本书内容,你就可以尝试将自己项目从最初创意变为一款有影响力的产品。”
——Alexander Gude
Intuit公司数据科学家

“机器学习最难的内容是:提炼问题、调试模型和将模型部署给用户使用。很多书都选择跳过,而本书则重点讲解它们。掌握本书内容,你就可以尝试将自己项目从最初创意变为一款有影响力的产品。”
——Alexander Gude
Intuit公司数据科学家

你可从本书学到设计、开发和部署机器学习应用的必备技能。本书将带你从产品构思起步,不断迭代,最终完成一款机器学习应用。无论你是数据科学家、软件工程师,还是产品经理,无论你资历深浅,你都可以从本书学到真实机器学习应用开发各步骤所需工具和最佳实践,掌握常见问题的解决方法。
本书作者是一位经验丰富的数据科学家,负责过人工智能教育项目。他在本书用代码块、插图、软件截屏和业界高手的访谈记录,生动诠释了机器学习概念,非常实用。本书第一部分教你规划机器学习应用并为其制定成功标准。第二部分介绍机器学习基础模型的开发方法,让模型跑起来。第三部分介绍模型改进方法,实现最初产品构思。第四部分则介绍模型部署和监控策略。
本书的主要内容有:
● 定义产品目标,将其转化为机器学习问题。
● 快速搭建第一条端到端流水线,创建初始数据集。
● 训练和评估机器学习模型,解决性能瓶颈。
● 将模型部署到生产环境,持续监控使用情况。
  1. 目录
  2. 前言
  3. 第一部分 让机器学习要找对方法
  4. 第1章 从产品目标到机器学习框架
  5. 1.1 评估什么可行
  6. 1.1.1 模型
  7. 1.1.2 数据
  8. 1.2 探索机器学习编辑器开发方案
  9. 1.2.1 尝试全用机器学习完成:端到端框架
  10. 1.2.2 最简方法:成为算法
  11. 1.2.3 中间地带:从自己经验学习
  12. 1.3 Monica Rogati:如何选择机器学习项目并安排其优先级
  13. 1.4 小结
  14. 第2章 制定方案
  15. 2.1 度量成功
  16. 2.1.1 业务指标
  17. 2.1.2 模型性能
  18. 2.1.3 新鲜度和分布偏移
  19. 2.1.4 速度
  20. 2.2 评估范围和挑战
  21. 2.2.1 利用领域知识
  22. 2.2.2 站在巨人肩上
  23. 2.3 机器学习编辑器方案
  24. 2.3.1 编辑器初步方案
  25. 2.3.2 永远从简单模型入手
  26. 2.4 不断进步:从简单方法入手
  27. 2.4.1 从简易流水线入手
  28. 2.4.2 机器学习编辑器流水线
  29. 2.5 小结
  30. 第二部分 建成可用流水线
  31. 第3章 搭建你的首条端到端流水线
  32. 3.1 最简框架
  33. 3.2 机器学习编辑器原型
  34. 3.2.1 解析和清洗数据
  35. 3.2.2 文本分词
  36. 3.2.3 生成特征
  37. 3.3 测试工作流
  38. 3.3.1 用户体验
  39. 3.3.2 建模结果
  40. 3.4 机器学习编辑器原型评估
  41. 3.4.1 模型
  42. 3.4.2 用户体验
  43. 3.5 小结
  44. 第4章 获取初始数据集
  45. 4.1 数据集迭代
  46. 4.2 探索你的首个数据集
  47. 4.2.1 高效始于简单
  48. 4.2.2 洞察力和产品的关系
  49. 4.2.3 数据质量规则
  50. 4.3 标注数据,寻找趋势
  51. 4.3.1 总结性统计信息
  52. 4.3.2 高效探索和标注
  53. 4.3.3 成为算法
  54. 4.3.4 数据趋势
  55. 4.4 用数据指导特征和模型
  56. 4.4.1 创建特征,捕获模式
  57. 4.4.2 机器学习编辑器特征
  58. 4.5 Robert Munro:你如何寻找、标注和使用数据?
  59. 4.6 小结
  60. 第三部分 模型迭代
  61. 第5章 训练和评估模型
  62. 5.1 最简合适模型
  63. 5.1.1 简易模型
  64. 5.1.2 从模式到模型
  65. 5.1.3 切分数据集
  66. 5.1.4 机器学习编辑器数据切分
  67. 5.1.5 判断模型表现
  68. 5.2 评估模型:超越准确率
  69. 5.2.1 对比数据和预测结果
  70. 5.2.2 混淆矩阵
  71. 5.2.3 ROC曲线
  72. 5.2.4 校准曲线
  73. 5.2.5 用降维技术分析出错样例
  74. 5.2.6 Top-K方法
  75. 5.2.7 其他模型
  76. 5.3 评估特征重要性
  77. 5.3.1 直接来自分类器
  78. 5.3.2 黑盒解释器
  79. 5.4 小结
  80. 第6章 调试机器学习模型
  81. 6.1 软件最佳实践
  82. 6.2 调试连接:可视化和测试
  83. 6.2.1 从一个样例开始
  84. 6.2.2 测机器学习代码
  85. 6.3 调试模型训练过程:让模型学习
  86. 6.3.1 任务难度
  87. 6.3.2 最优化问题
  88. 6.4 调试泛化能力:让模型有用
  89. 6.4.1 数据泄露
  90. 6.4.2 过拟合
  91. 6.4.3 思考手头任务
  92. 6.5 小结
  93. 第7章 用分类器生成写作建议
  94. 7.1 从模型抽取建议
  95. 7.1.1 我们不用模型能实现什么?
  96. 7.1.2 抽取全局特征重要性
  97. 7.1.3 利用模型打的分值
  98. 7.1.4 抽取局部特征重要性
  99. 7.2 模型对比
  100. 7.2.1 模型v 1:建议就像统计报告
  101. 7.2.2 模型v 2:模型更强大但建议更模糊
  102. 7.2.3 模型v3:建议可理解
  103. 7.3 生成编辑建议
  104. 7.4 小结
  105. 第四部分 部署和监控
  106. 第8章 部署模型的注意事项
  107. 8.1 数据使用注意事项
  108. 8.1.1 数据所有权
  109. 8.1.2 数据偏差
  110. 8.1.3 系统偏差
  111. 8.2 建模注意事项
  112. 8.2.1 反馈循环
  113. 8.2.2 模型更包容
  114. 8.2.3 思考预测背景
  115. 8.2.4 机器学习模型的对手
  116. 8.2.5 思考模型滥用和挪用风险
  117. 8.3 Chris Harland:交付实验
  118. 8.4 小结
  119. 第9章 选择部署方案
  120. 9.1 服务端部署
  121. 9.1.1 流式应用或API
  122. 9.1.2 批量预测
  123. 9.2 客户端部署
  124. 9.2.1 部署到设备
  125. 9.2.2 用浏览器端交付
  126. 9.3 联邦学习:一种混合方法
  127. 9.4 小结
  128. 第10章 搭建模型防护罩
  129. 10.1 故障应对举措
  130. 10.1.1 检查输入和输出
  131. 10.1.2 模型后盾
  132. 10.2 模型性能提高举措
  133. 10.2.1 扩展模型,服务多用户
  134. 10.2.2 模型和数据生命周期管理
  135. 10.2.3 数据处理和有向无环图
  136. 10.3 寻求用户反馈
  137. 10.4 Chris Moody:赋予数据科学家部署模型的力量
  138. 10.5 小结
  139. 第11章 监控和更新模型
  140. 11.1 监控可拯救系统
  141. 11.1.1 监控告知刷新率
  142. 11.1.2 监控模型,检测滥用行为
  143. 11.2 选择监控内容
  144. 11.2.1 性能指标
  145. 11.2.2 业务指标
  146. 11.3 机器学习系统的持续集成和交付
  147. 11.3.1 A/B测试和实验
  148. 11.3.2 其他方法
  149. 11.4 小结
书名:构建机器学习应用
作者:Emmanuel Ameisen
译者:杜春晓, 赵巍 译
国内出版社:中国电力出版社
出版时间:2023年04月
页数:264
书号:978-7-5198-7635-7
原版书书名:Building Machine Learning Powered Applications
原版书出版商:O'Reilly Media
Emmanuel Ameisen
 
Emmanuel Ameisen现任Stripe公司机器学习工程师。他曾为Local Motion和Zipcar公司开发、部署预测分析和机器学习解决方案。他此前还曾负责Insight Data Science公司人工智能团队,指导过150多个机器学习项目。他先后就读于法国三所顶尖学府,分获人工智能、计算机工程和管理三个理学硕士学位。
 
 
本书封面动物是红线蛱蝶(学名:Limenitis populi,英文名:poplar admiral butterfly,又名白杨上将)。这种蝴蝶体型较大,分布于北非、亚洲北部、中东和欧洲,但越来越罕见。
白杨上将翼展达三英寸。其翅正面呈深棕色,有白斑,翅缘呈深蓝灰色和红橙色,背面是鲜亮的红橙色。
8月,该蝶在白杨树(主要为欧洲山杨)叶上产卵,其幼虫以树叶为食。幼虫生有角状枝刺,生长过程其身体从绿色变为棕色以躲避天敌。它们生于夏末,秋天吐丝结茧,好躲在里面过冬。来春杨树萌芽,它们就会钻出茧,并立即恢复进食,以完成其最后的变身:5月末,它们又用丝将自己绑到叶子上,随即生出一层坚硬表皮。它们在里面化蛹,6月和7月蜕变为蝶。
不同于大多数蝴蝶的是,白杨上将不会飞到花朵上吸食花蜜,而是用口器从腐肉、动物粪便、树液和泥浆中的盐分(有时亦吸食人体汗液中的盐分)吸取食物和养分。它们似乎喜欢腐烂的味道。
尽管《世界自然保护联盟濒危物种红色名录》(IUCN Red List)目前将其归到低危保护级别,但随着落叶林区被清理出来发展其他事业,白杨上将种群数量逐渐下降。O’Reilly图书封面上的很多动物都是濒危物种,它们对全世界都很重要。
封面插图是Jose Marzan Jr.根据Meyers Kleines Lexicon一书中的黑白版画绘制而成。
购买选项
定价:88.00元
书号:978-7-5198-7635-7
出版社:中国电力出版社