基于云计算的数据科学
马睿 译
出版时间:2020年01月
页数:409
本书将带领你了解如何使用Google云计算平台,轻松构建复杂的统计和机器学习解决方案,解决实际业务问题。本书作为一本动手指南,为开发人员展示了如何在数据科学领域实现端到端的数据管道,以及如何在Google云计算平台上使用统计和机器学习的方法和工具。通过阅读本书,你将学习多种数据科学方法,并使用这些方法在示例项目上制定业务决策。
随后,你就可以在Google云计算平台上针对自己的项目构建统计和机器学习解决方案了,同时探索该平台为数据科学提供的更多革命性和协作特性。
在本书中,你将学到:
● 使用App Engine应用实现自动化定期数据摄取。
● 在Google Data Studio中创建并生成数据仪表板。
● 构建实时数据分析管道,实现流式数据分析。
● 使用Google BigQuery实现可交互式数据探索。
● 在Cloud Dataproc群集上创建贝叶斯模型。
● 使用Spark构建逻辑回归机器学习模型。
● 使用Cloud Dataflow数据管道计算时间聚合特征。
● 使用TensorFlow构建高性能预测模型。
● 将你的模型部署为微服务,并且从批处理和实时数据管道中使用它。
- 前言
- 第1章 用数据做出更好的决策
- 许多相似的决策
- 数据工程师的角色
- 云计算让数据工程师成为可能
- 云计算使数据科学能力得到倍增
- 用案例研究揭示难解的真相
- 基于概率的决策
- 数据和工具
- 本章总结
- 第2章 将数据摄取到云端
- 航空公司准点数据
- 为什么不就地存储数据?
- 摄取数据
- 每月下载计划
- 本章总结
- 代码实验
- 第3章 创建引人注目的仪表板
- 使用数据仪表板对模型进行解释
- 为什么要先构建数据仪表板?
- 准确、忠实于数据且良好的设计
- 将数据加载到 Google Cloud SQL
- 创建Google Cloud SQL实例
- 与Google云计算平台交互
- 控制对MySQL的访问
- 创建表
- 向表中填充数据
- 建立第一个模型
- 构建数据仪表板
- Data Studio入门
- 本章总结
- 第4章 流数据:发布和摄取
- 设计事件馈送
- 时间校正
- Apache Beam/Cloud Dataflow
- 将事件流发布到Cloud Pub/Sub
- 实时流式处理
- 本章总结
- 第5章 交互式数据探索
- 探索性数据分析
- 将航班数据加载到BigQuery中
- Cloud Datalab中的探索性数据分析
- 质量控制
- 不同出发延误条件下的抵达延误
- 评估模型
- 本章总结
- 第6章 Cloud Dataproc上的贝叶斯分类器
- MapReduce和Hadoop生态系统
- 使用Spark SQL进行量化
- 使用Pig实现贝叶斯分类
- 本章总结
- 第7章 机器学习:Spark上的逻辑回归
- 逻辑回归
- 特征工程
- 本章总结
- 第8章 时间窗化的聚合特征
- 平均时间的需求
- Java中的Dataflow
- 计算平均时间
- 监控、故障排除和性能调整
- 本章总结
- 第9章 使用TensorFlow的
- 机器学习分类器
- 使用更复杂的模型
- 将数据读入TensorFlow
- 建立实验
- 对ML模型进行改进
- 部署模型
- 本章总结
- 第10章 实时机器学习
- 调用预测服务
- 将预测结果添加到航班信息
- 流式数据管道
- 事务,吞吐量和延迟
- 评估模型的性能
- 本章总结
- 全书总结
- 附录 有关机器学习数据集中敏感数据的注意事项
书名:基于云计算的数据科学
译者:马睿 译
国内出版社:中国电力出版社
出版时间:2020年01月
页数:409
书号:978-7-5198-4013-6
原版书书名:Data Science on the Google Cloud Platform
原版书出版商:O'Reilly Media
Valliappa Lakshmanan
Valliappa (Lak) Lakshmanan是Google Cloud的数据分析和AI解决方案负责人。他的团队借助BigQuery和Google Cloud上的其他数据分析、机器学习产品,构建软件解决方案来解决业务问题。
Valliappa Lakshmanan目前是Google云计算平台数据和机器学习专业服务的技术主管。他希望将机器学习普及化,让任何人、在任何地方,无需深入了解统计学、编程知识,也无需购买大量硬件,也可使用Google云平台提供的卓越架构。在加入Google前,Valliappa曾供职于气象局,领导着一个数据科学团队,并且是NOAA国家重大风暴实验室的研究科学家,他曾致力于使用机器学习进行恶劣天气的识别和预测。
本书的封面动物是黄胸鹬(学名:Calidris subruficollis)。虽然大多数鹬科都是水鸟,但黄胸鹬在海岸附近并不常见,它们在加拿大和阿拉斯加的苔原栖息地繁衍,冬季飞跃美国中西部地区,迁徙数千英里到达南美洲。在英国和爱尔兰也可以看到这种鸟。
黄胸鹬是一种小型鸟,长约7~9英寸,平均翼展18英寸,它们背上有棕色羽毛,因为胸前羽毛呈浅棕色,因此而得名。在交配季节,鸟儿们聚集在一片用于展示自己的地盘(即“求偶场”),雄性将喙向上抬起,翅膀上扬,露出下部的白色羽毛,同时摇动身体。如果求偶成功,它们可能与多个雌性交配。雌性鹬鸟有独立的筑巢场地,它们将蛋产浅浅的洞中,然后用青苔、叶子和其他植物盖住。昆虫是鹬鸟的主要食物来源,在狩猎时,它们静止不动用视线观察,当有猎物出现时,它们迅速冲出去,用又短又尖的喙捕捉。
在非繁殖季节,黄胸鹬喜欢栖息在有矮小草丛的地方,如机场、耕地和高尔夫球场等,这也是它们在城市通常用于过冬的地方。目前,由于杀虫剂的使用以及北极繁殖区的栖息地受到破坏,黄胸鹬已被列为濒危物种。
本书封面图片来自British Birds III。