基于AWS的数据科学实践
Chris Fregly, Antje Barth
孟然 译
出版时间:2022年10月
页数:531
“这本书将帮助您将数据科学项目从想法一步一步付诸实践。Chris和Antje在本书中涵盖了所有的重要概念和关键的 AWS 服务,以及许多真实世界的示例帮助你开始你的数据科学旅程。”
——Jeff Barr
Amazon网络服务副总裁与首席布道者


通过阅读这本实用手册,人工智能(AI)和机器学习(ML)从业者将会学习如何在Amazon网络服务(AWS)上成功构建并部署数据科学项目。Amazon AI和ML服务栈将数据科学、数据工程和应用开发统一在一起,来帮助你提升技能。这本手册向你展示如何在云上搭建和运行流水线,并将运行结果在几分钟内(而不是几天)集成到应用中。此外,本书作者还在全书各个章节点明了降低开销并提升性能的方法。
● 将Amazon AI和ML服务栈应用到真实世界的应用场景,如自然语言处理、计算机视觉、欺诈检测、对话式设备等。
● 使用Amazon SageMaker Autopilot,通过自动化机器学习(AutoML)实现特定应用场景的子集。
● 深入理解一个基于BERT的自然语言处理场景的模型开发的完整生命周期,包括数据接入、数据分析以及更多。
● 将所有组件包装成一个可重复的机器学习运维流水线。
● 通过Amazon Kinesis和Amazon Managed Streaming for Apache Kafka(MSK),在实时数据流中探索实时机器学习、异常检测和流分析。
● 了解数据科学项目和工作流中的最佳安全实践,包括在数据接入和分析、模型训练和部署过程中应用AWS Identity and Access Management(IAM)、鉴权、授权。
  1. 前言
  2. 第1章 基于AWS的数据科学概述
  3. 1.1 云计算的益处
  4. 1.2 数据科学流水线与工作流
  5. 1.3 机器学习运维最佳实践
  6. 1.4 使用Amazon SageMaker实现Amazon人工智能服务和机器学习自动化
  7. 1.5 在AWS上实现数据接入、探索与准备
  8. 1.6 使用Amazon SageMaker训练和调试模型
  9. 1.7 使用Amazon SageMaker和AWS Lambda函数部署模型
  10. 1.8 AWS上的流分析和机器学习
  11. 1.9 AWS基础设施和定制化硬件
  12. 1.10 使用标签、预算和告警减少开销
  13. 1.11 小结
  14. 第2章 数据科学的应用场景
  15. 2.1 在每个行业实现创新
  16. 2.2 个性化产品推荐
  17. 2.3 使用Amazon Rekognition检测不当视频
  18. 2.4 需求预测
  19. 2.5 使用Amazon Fraud Detector识别虚假账号
  20. 2.6 使用Amazon Macie检测隐私泄漏
  21. 2.7 对话装置和语音助手
  22. 2.8 文本分析和自然语言处理
  23. 2.9 认知式搜索和自然语言理解
  24. 2.10 智能客户支持中心
  25. 2.11 工业人工智能服务和预测性维护
  26. 2.12 使用AWS IoT和Amazon SageMaker实现家庭自动化
  27. 2.13 从医疗卫生档案中提取医疗信息
  28. 2.14 自我优化的智能云基础设施
  29. 2.15 认知式的预测性商业智能
  30. 2.16 培养下一代人工智能和机器学习开发者
  31. 2.17 使用量子计算实现大自然的操作系统
  32. 2.18 提升性能并节省开支
  33. 2.19 小结
  34. 第3章 自动化机器学习
  35. 3.1 用SageMaker Autopilot实现自动化机器学习
  36. 3.2 用SageMaker Autopilot跟踪实验
  37. 3.3 用SageMaker Autopilot训练并部署文本分类器
  38. 3.4 用Amazon Comprehend实现自动化机器学习
  39. 3.5 小结
  40. 第4章 将数据接入云
  41. 4.1 数据湖
  42. 4.2 用Amazon Athena查询Amazon S3数据湖
  43. 4.3 用AWS Glue Crawler持续接入新数据
  44. 4.4 用Amazon Redshift Spectrum构建数据湖仓
  45. 4.5 在Amazon Athena和Amazon Redshift之间选择
  46. 4.6 降低开销并提升性能
  47. 4.7 小结
  48. 第5章 探索数据集
  49. 5.1 AWS上可用于浏览数据的工具
  50. 5.2 使用SageMaker Studio可视化数据湖
  51. 5.3 查询数据仓库
  52. 5.4 使用Amazon QuickSight创建数据仪表
  53. 5.5 使用Amazon SageMaker和Apache Spark检测数据质量问题
  54. 5.6 数据集的偏差检测
  55. 5.7 使用SageMaker Clarify检测不同类别的数据偏移问题
  56. 5.8 使用AWS Glue DataBrew分析数据
  57. 5.9 节省开支并提升性能
  58. 5.10 小结
  59. 第6章 为模型训练准备数据集
  60. 6.1 特征选择和特征工程
  61. 6.2 使用SageMaker处理任务进行规模化特征工程
  62. 6.3 通过SageMaker特征存储(Feature Store)共享特征
  63. 6.4 使用SageMaker Data Wrangler接入并转换数据
  64. 6.5 使用Amazon SageMaker追踪构件和实验谱系
  65. 6.6 使用AWS Glue DataBrew接入并转换数据
  66. 6.7 小结
  67. 第7章 训练第一个模型
  68. 7.1 理解SageMaker基础设施
  69. 7.2 使用SageMaker JumpStart部署预先训练的BERT模型
  70. 7.3 开发一个SageMaker模型
  71. 7.4 自然语言处理简史
  72. 7.5 BERT转换器架构
  73. 7.6 从头训练BERT
  74. 7.7 微调预先训练的BERT模型
  75. 7.8 创建训练脚本
  76. 7.9 从SageMaker笔记本启动训练脚本
  77. 7.10 评估模型
  78. 7.11 使用SageMaker调试器调试和剖析模型训练
  79. 7.12 阐述和解释模型预测
  80. 7.13 检测模型偏差并解释预测
  81. 7.14 BERT的更多训练选项
  82. 7.15 节省开支并提升性能
  83. 7.16 小结
  84. 第8章 规模化训练与优化模型
  85. 8.1 自动发现模型的最优超参数
  86. 8.2 对额外的SageMaker超参数调优任务应用热启动
  87. 8.3 使用SageMaker分布式训练扩大训练规模
  88. 8.4 节省开支并提升性能
  89. 8.5 小结
  90. 第9章 部署模型到生产环境
  91. 9.1 选择实时预测或批量预测
  92. 9.2 使用SageMaker Endpoints进行实时预测
  93. 9.3 使用Amazon CloudWatch控制SageMaker Endpoints自动伸缩
  94. 9.4 部署新模型与更新模型的策略
  95. 9.5 测试与比较新模型
  96. 9.6 模型性能监控与漂移检测
  97. 9.7 监控已部署的SageMaker Endpoints数据质量
  98. 9.8 监控已部署的SageMaker Endpoints模型质量
  99. 9.9 监控已部署的SageMaker Endpoints偏差漂移
  100. 9.10 监控已部署的SageMaker Endpoints特征归因(Feature Attribution)漂移
  101. 9.11 使用SageMaker批量转换进行批量预测
  102. 9.12 AWS Lambda函数与Amazon API网关
  103. 9.13 优化和管理边缘模型
  104. 9.14 使用TorchServe部署PyTorch模型
  105. 9.15 使用AWS Deep Java库进行TensorFlow-BERT推理
  106. 9.16 节省开支并提升性能
  107. 9.17 小结
  108. 第10章 流水线和机器学习运维
  109. 10.1 机器学习运维
  110. 10.2 软件流水线
  111. 10.3 机器学习流水线
  112. 10.4 使用SageMaker流水线进行流水线编排
  113. 10.5 使用SageMaker流水线实现自动化
  114. 10.6 更多流水线选项
  115. 10.7 人机回圈工作流
  116. 10.8 节省开支并提升性能
  117. 10.9 小结
  118. 第11章 流分析与机器学习
  119. 11.1 在线学习与离线学习
  120. 11.2 流应用
  121. 11.3 对流数据实现窗口查询
  122. 11.4 AWS上的流分析和机器学习
  123. 11.5 使用Amazon Kinesis,AWS Lambda和Amazon SageMaker进行实时产品评价分类
  124. 11.6 使用Amazon Kinesis Data Firehose实现流数据接入
  125. 11.7 使用流分析汇总实时产品评价
  126. 11.8 设置Amazon Kinesis数据分析
  127. 11.9 Amazon Kinesis数据分析应用
  128. 11.10 使用Apache Kafka,AWS Lambda和Amazon SageMaker进行产品评价分类
  129. 11.11 节省开支并提升性能
  130. 11.12 小结
  131. 第12章 用AWS保证数据科学安全
  132. 12.1 AWS与客户的责任共担模型
  133. 12.2 应用AWS身份和访问管理(IAM)
  134. 12.3 隔离计算和网络环境
  135. 12.4 安全访问Amazon S3的数据
  136. 12.5 数据静态加密
  137. 12.6 数据传输加密
  138. 12.7 安全使用SageMaker Notebook实例
  139. 12.8 安全使用SageMaker Studio
  140. 12.9 安全运行SageMaker任务和模型
  141. 12.10 安全使用AWS Lake Formation
  142. 12.11 通过AWS加密信息管理服务安全使用数据库凭据
  143. 12.12 治理
  144. 12.13 可审计性
  145. 12.14 节省开支并提升性能
  146. 12.15 小结
书名:基于AWS的数据科学实践
译者:孟然 译
国内出版社:中国电力出版社
出版时间:2022年10月
页数:531
书号:978-7-5198-6966-3
原版书书名:Data Science on AWS
原版书出版商:O'Reilly Media
Chris Fregly
 
Chris Fregly是AWS的首席AI和机器学习开发者和布道者,居住在旧金山。他经常在全世界的AI和机器学习会议上演讲,包括O’Reilly AI Superstream系列。之前,Chris曾是PipelineAI的创建者,Databricks的解决方案工程师,以及Netflix的软件工程师。
 
 
Antje Barth
 
Antje Barth是AWS的高级AI和机器学习开发者和倡导者,居住于德国杜塞尔多夫。Antje是“Women in Big Data”杜塞尔多夫分部的联合创始人,她频繁在全世界的AI和机器学习会议和聚会上演讲。她同时也任职于O’Reilly AI Superstream大会并策划内容。
 
 
本书封面上的动物是一只北方针尾鸭(学名:Anas acuta)。这些大型鸭子在繁殖季节(春夏)的北半球随处可见,并在冬天迁徙至南半球。
北方针尾鸭具有性别二态性,只有雄性针尾鸭拥有标志性的4英寸长中央尾羽。一只正常的北方针尾鸭重约2磅,长约21~25英寸。它们在野生环境下可以存活超过20年。在春天,雌性生出7~9只奶油颜色的蛋,并在约3周左右孵化。这些鸟类最主要的食物是植物,如种子、根和谷物,以及一些动物,包括昆虫、软体动物和甲壳类动物。
北方针尾鸭的种群数量有所下降,但世界自然保护联盟濒危物种红色名录(IUCN Red List)认为该物种受到良好保护,将其归类于“无危”(Least Concern)。O’Reilly封皮上的许多动物都是濒危物种,所有这些动物对于世界来说都很重要。
购买选项
定价:148.00元
书号:978-7-5198-6966-3
出版社:中国电力出版社