基于云计算的数据科学
Valliappa Lakshmanan
马睿 译
出版时间:2020年01月
页数:409
本书将带领你了解如何使用Google云计算平台,轻松构建复杂的统计和机器学习解决方案,解决实际业务问题。本书作为一本动手指南,为开发人员展示了如何在数据科学领域实现端到端的数据管道,以及如何在Google云计算平台上使用统计和机器学习的方法和工具。通过阅读本书,你将学习多种数据科学方法,并使用这些方法在示例项目上制定业务决策。
随后,你就可以在Google云计算平台上针对自己的项目构建统计和机器学习解决方案了,同时探索该平台为数据科学提供的更多革命性和协作特性。
在本书中,你将学到:
● 使用App Engine应用实现自动化定期数据摄取。
● 在Google Data Studio中创建并生成数据仪表板。
● 构建实时数据分析管道,实现流式数据分析。
● 使用Google BigQuery实现可交互式数据探索。
● 在Cloud Dataproc群集上创建贝叶斯模型。
● 使用Spark构建逻辑回归机器学习模型。
● 使用Cloud Dataflow数据管道计算时间聚合特征。
● 使用TensorFlow构建高性能预测模型。
● 将你的模型部署为微服务,并且从批处理和实时数据管道中使用它。
  1. 前言
  2. 第1章 用数据做出更好的决策
  3. 许多相似的决策
  4. 数据工程师的角色
  5. 云计算让数据工程师成为可能
  6. 云计算使数据科学能力得到倍增
  7. 用案例研究揭示难解的真相
  8. 基于概率的决策
  9. 数据和工具
  10. 本章总结
  11. 第2章 将数据摄取到云端
  12. 航空公司准点数据
  13. 为什么不就地存储数据?
  14. 摄取数据
  15. 每月下载计划
  16. 本章总结
  17. 代码实验
  18. 第3章 创建引人注目的仪表板
  19. 使用数据仪表板对模型进行解释
  20. 为什么要先构建数据仪表板?
  21. 准确、忠实于数据且良好的设计
  22. 将数据加载到 Google Cloud SQL
  23. 创建Google Cloud SQL实例
  24. 与Google云计算平台交互
  25. 控制对MySQL的访问
  26. 创建表
  27. 向表中填充数据
  28. 建立第一个模型
  29. 构建数据仪表板
  30. Data Studio入门
  31. 本章总结
  32. 第4章 流数据:发布和摄取
  33. 设计事件馈送
  34. 时间校正
  35. Apache Beam/Cloud Dataflow
  36. 将事件流发布到Cloud Pub/Sub
  37. 实时流式处理
  38. 本章总结
  39. 第5章 交互式数据探索
  40. 探索性数据分析
  41. 将航班数据加载到BigQuery中
  42. Cloud Datalab中的探索性数据分析
  43. 质量控制
  44. 不同出发延误条件下的抵达延误
  45. 评估模型
  46. 本章总结
  47. 第6章 Cloud Dataproc上的贝叶斯分类器
  48. MapReduce和Hadoop生态系统
  49. 使用Spark SQL进行量化
  50. 使用Pig实现贝叶斯分类
  51. 本章总结
  52. 第7章 机器学习:Spark上的逻辑回归
  53. 逻辑回归
  54. 特征工程
  55. 本章总结
  56. 第8章 时间窗化的聚合特征
  57. 平均时间的需求
  58. Java中的Dataflow
  59. 计算平均时间
  60. 监控、故障排除和性能调整
  61. 本章总结
  62. 第9章 使用TensorFlow的
  63. 机器学习分类器
  64. 使用更复杂的模型
  65. 将数据读入TensorFlow
  66. 建立实验
  67. 对ML模型进行改进
  68. 部署模型
  69. 本章总结
  70. 第10章 实时机器学习
  71. 调用预测服务
  72. 将预测结果添加到航班信息
  73. 流式数据管道
  74. 事务,吞吐量和延迟
  75. 评估模型的性能
  76. 本章总结
  77. 全书总结
  78. 附录 有关机器学习数据集中敏感数据的注意事项
书名:基于云计算的数据科学
译者:马睿 译
国内出版社:中国电力出版社
出版时间:2020年01月
页数:409
书号:978-7-5198-4013-6
原版书书名:Data Science on the Google Cloud Platform
原版书出版商:O'Reilly Media
Valliappa Lakshmanan
 
Valliappa (Lak) Lakshmanan是Google Cloud的数据分析和AI解决方案负责人。他的团队借助BigQuery和Google Cloud上的其他数据分析、机器学习产品,构建软件解决方案来解决业务问题。

Valliappa Lakshmanan目前是Google云计算平台数据和机器学习专业服务的技术主管。他希望将机器学习普及化,让任何人、在任何地方,无需深入了解统计学、编程知识,也无需购买大量硬件,也可使用Google云平台提供的卓越架构。在加入Google前,Valliappa曾供职于气象局,领导着一个数据科学团队,并且是NOAA国家重大风暴实验室的研究科学家,他曾致力于使用机器学习进行恶劣天气的识别和预测。
 
 
本书的封面动物是黄胸鹬(学名:Calidris subruficollis)。虽然大多数鹬科都是水鸟,但黄胸鹬在海岸附近并不常见,它们在加拿大和阿拉斯加的苔原栖息地繁衍,冬季飞跃美国中西部地区,迁徙数千英里到达南美洲。在英国和爱尔兰也可以看到这种鸟。
黄胸鹬是一种小型鸟,长约7~9英寸,平均翼展18英寸,它们背上有棕色羽毛,因为胸前羽毛呈浅棕色,因此而得名。在交配季节,鸟儿们聚集在一片用于展示自己的地盘(即“求偶场”),雄性将喙向上抬起,翅膀上扬,露出下部的白色羽毛,同时摇动身体。如果求偶成功,它们可能与多个雌性交配。雌性鹬鸟有独立的筑巢场地,它们将蛋产浅浅的洞中,然后用青苔、叶子和其他植物盖住。昆虫是鹬鸟的主要食物来源,在狩猎时,它们静止不动用视线观察,当有猎物出现时,它们迅速冲出去,用又短又尖的喙捕捉。
在非繁殖季节,黄胸鹬喜欢栖息在有矮小草丛的地方,如机场、耕地和高尔夫球场等,这也是它们在城市通常用于过冬的地方。目前,由于杀虫剂的使用以及北极繁殖区的栖息地受到破坏,黄胸鹬已被列为濒危物种。
本书封面图片来自British Birds III。
购买选项
定价:98.00元
书号:978-7-5198-4013-6
出版社:中国电力出版社