Spark权威指南
Bill Chambers, Matei Zaharia
张岩峰, 王方京, 陈晶晶 译
出版时间:2020年04月
页数:534
通过本书你将了解到如何使用、部署和维护Apache Spark开源集群计算框架。本书由Spark的创始人所撰写,重点介绍Spark最新版本的新功能和新特点。本书将Spark功能分解为若干独立主题来进行全面介绍。
你将接触到Spark的基本操作和常用函数,还包括一种全新的构建端到端流数据应用的结构化流处理API。开发人员和系统管理员将了解到Spark的监控、调优,以及调试的原则和方法,并通过使用Spark提供的可扩展机器学习库MLlib来了解机器学习算法的实现技术。
● 大数据技术和Spark概述。
● 通过实例学习DataFrame、SQL、Dataset等Spark的核心API。
● 了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程。
● 了解Spark如何在集群上运行。
● Spark集群和应用程序的调试、监控、和调优。
● 学习Spark强大的流处理引擎——结构化流处理。
● 学习MLlib并了解如何使用它解决分类、推荐,以及其他多种实际问题。
  1. 前言
  2. 第Ⅰ部分 大数据与Spark概述
  3. 第1章 Spark是什么?
  4. Apache Spark的设计哲学
  5. 背景:大数据问题
  6. Spark的历史
  7. Spark的现状和未来
  8. 运行Spark
  9. 第2章 Spark浅析
  10. Spark的基本架构
  11. Spark API的多语言支持
  12. Spark的API
  13. 启动Spark
  14. 转换操作
  15. 动作操作
  16. Spark用户接口
  17. 一个完整的例子
  18. 小结
  19. 第3章 Spark工具集介绍
  20. 运行生产应用程序
  21. Dataset:类型安全的结构化API
  22. 结构化流处理
  23. 机器学习和高级数据分析
  24. 低级API
  25. SparkR
  26. Spark的生态系统和工具包
  27. 小结
  28. 第Ⅱ部分 结构化API——DataFrame、SQL和Dataset
  29. 第4章 结构化API概述
  30. DataFrame类型和Dataset类型
  31. Schema
  32. 结构化Spark类型概述
  33. 结构化API执行概述
  34. 小结
  35. 第5章 基本的结构化操作
  36. 模式
  37. 列和表达式
  38. 记录和行
  39. DataFrame转换操作
  40. 小结
  41. 第6章 处理不同的数据类型
  42. 在哪里查找API
  43. 转换成Spark类型
  44. 处理布尔类型
  45. 处理数值类型
  46. 处理字符串类型
  47. 处理日期和时间戳类型
  48. 处理数据中的空值
  49. 处理JSON类型
  50. 用户自定义函数
  51. 小结
  52. 第7章 聚合操作
  53. 聚合函数
  54. 分组
  55. window函数
  56. 分组集
  57. 用户自定义的聚合函数
  58. 小结
  59. 第8章 连接操作
  60. 连接表达式
  61. 连接类型
  62. 内连接
  63. 外连接
  64. 左外连接
  65. 右外连接
  66. 左半连接
  67. 左反连接
  68. 自然连接
  69. 交叉连接(笛卡尔连接)
  70. 连接操作常见问题与解决方案
  71. 小结
  72. 第9章 数据源
  73. 数据源API的结构
  74. CSV 文件
  75. JSON 文件
  76. Parquet文件
  77. ORC文件
  78. SQL数据库
  79. 文本文件
  80. 高级I/O概念
  81. 小结
  82. 第10章 Spark SQL
  83. 什么是SQL?
  84. 大数据和SQL:Apache Hive
  85. 大数据和SQL:Spark SQL
  86. 如何运行Spark SQL查询
  87. Catalog
  88. 视图
  89. 数据库
  90. 选择语句
  91. 高级主题
  92. 其他功能
  93. 小结
  94. 第11章 Dataset
  95. 何时使用Dataset
  96. 创建Dataset
  97. 动作操作
  98. 转换操作
  99. 连接
  100. 分组和聚合
  101. 小结
  102. 第Ⅲ部分 低级API
  103. 第12章 弹性分布式数据集
  104. 什么是低级API?
  105. 关于RDD
  106. 创建RDD
  107. 操作RDD
  108. 转换操作
  109. 动作操作
  110. 保存文件
  111. 缓存
  112. 检查点
  113. 通过pipe方法调用系统命令操作RDD
  114. 小结
  115. 第13章 高级RDD
  116. Key-Value基础 (Key-Value RDD)
  117. 聚合操作
  118. CoGroups
  119. 连接操作
  120. 控制分区
  121. 自定义序列化
  122. 小结
  123. 第14章 分布式共享变量
  124. 广播变量
  125. 累加器
  126. 小结
  127. 第Ⅳ部分 生产与应用
  128. 第15章 Spark如何在集群上运行
  129. Spark应用程序的体系结构
  130. Spark应用程序的生命周期(Spark外部)
  131. Spark应用程序的生命周期(Spark内部)
  132. 执行细节
  133. 小结
  134. 第16章 开发Spark应用程序
  135. 编写Spark应用程序
  136. 测试Spark应用程序
  137. 开发过程
  138. 启动应用程序
  139. 配置应用程序
  140. 小结
  141. 第17章 部署Spark
  142. 在哪里部署Spark集群
  143. 集群管理器
  144. 其他注意事项
  145. 小结
  146. 第18章 监控与调试
  147. 监控级别
  148. 要监视什么
  149. Spark日志
  150. Spark UI
  151. 调试和Spark抢救方案
  152. 小结
  153. 第19章 性能调优
  154. 间接性能优化
  155. 直接性能优化
  156. 小结
  157. 第Ⅴ部分 流处理
  158. 第20章 流处理基础
  159. 什么是流处理?
  160. 流处理设计要点
  161. Spark的流处理API
  162. 小结
  163. 第21章 结构化流处理基础
  164. 结构化流处理概述
  165. 核心概念
  166. 结构化流处理实例
  167. 结构化流上的转换操作
  168. 聚合
  169. 输入和输出
  170. 流式Dataset API
  171. 小结
  172. 第22章 事件时间和有状态处理
  173. 事件时间
  174. 有状态处理
  175. 任意有状态处理
  176. 事件时间基础知识
  177. 事件时间的窗口
  178. 在流中删除重复项
  179. 任意有状态处理
  180. 小结
  181. 第23章 生产中的结构化流处理
  182. 容错和检查点
  183. 更新应用程序
  184. 度量和监视
  185. 警报
  186. 使用流侦听器进行高级监视
  187. 小结
  188. 第Ⅵ部分 高级分析与机器学习
  189. 第24章 高级分析和机器学习概览
  190. 高级分析简介
  191. Spark的高级分析工具包
  192. 高级MLlib概念
  193. MLlib的执行
  194. 部署模式
  195. 小结
  196. 第25章 预处理和特征工程
  197. 根据应用场景格式化模型
  198. 转换器
  199. 预处理的估计器
  200. 高级转换器
  201. 处理连续型特征
  202. 使用类别特征
  203. 文本数据转换器
  204. 特征操作
  205. 特征选择
  206. 高级主题
  207. 编写自定义转换器
  208. 小结
  209. 第26章 分类
  210. 应用场景
  211. 分类的类型
  212. MLlib中的分类模型
  213. 逻辑回归
  214. 决策树
  215. 随机森林和梯度提升树
  216. 朴素贝叶斯
  217. 分类评估器和自动化模型校正
  218. One-vs-Rest分类
  219. 多层感知器
  220. 小结
  221. 第27章 回归
  222. 应用场景
  223. MLlib中的回归模型
  224. 线性回归
  225. 广义线性回归
  226. 决策树
  227. 随机森林和梯度提升树
  228. 高级方法
  229. 评估器和自动化模型校正
  230. 度量标准
  231. 小结
  232. 第28章 推荐系统
  233. 应用场景
  234. 基于交替最小二乘法的协同过滤
  235. 推荐系统的评估器
  236. 度量指标
  237. 频繁模式挖掘
  238. 小结
  239. 第29章 无监督学习
  240. 应用场景
  241. 模型的可扩展性
  242. k-means
  243. 二分k-means
  244. 高斯混合模型
  245. LDA主题模型
  246. 小结
  247. 第30章 图分析
  248. 构建图
  249. 查询图
  250. 模式发现
  251. 图算法
  252. 小结
  253. 第31章 深度学习
  254. 什么是深度学习?
  255. 在Spark中使用深度学习
  256. 深度学习库
  257. Deep Learning Pipelines的一个简单示例
  258. 小结
  259. 第Ⅶ部分 生态系统
  260. 第32章 语言支持:Python(PySpark)和R(SparkR和Sparklyr)
  261. PySpark
  262. Spark中的R
  263. 小结
  264. 第33章 生态系统和社区
  265. Spark软件包
  266. 社区
  267. 小结
书名:Spark权威指南
译者:张岩峰, 王方京, 陈晶晶 译
国内出版社:中国电力出版社
出版时间:2020年04月
页数:534
书号:978-7-5198-4009-9
原版书书名:Spark: The Definitive Guide
原版书出版商:O'Reilly Media
Bill Chambers
 
Bill Chambers是Databricks的一名产品经理, 致力于使用Spark和Databricks帮助客户完成大规模数据分析的任务。
Bill还定期写关于数据科学和大数据方面的博客, 并常在各种会议和见面会上展示产品。他拥有加州大学伯克利分校信息学院的信息系统硕士学位, 研究方向为数据科学。
 
 
Matei Zaharia
 
Matei Zaharia是斯坦福大学计算机科学系助理教授和Databricks的首席技术官。他于2009年在加州大学伯克利分校立了Spark项目,那时他是一名博士生,并继续担任pache Spark项目的副主席。Matei Zaharia还是Apache Mesos项目的联合创始人,也 是Apache Hadoop项目的贡献者。Matei Zaharia以他出色的研究工作获得了2014年美国计算机学会博士论文奖(ACM Doctoral Dissertation Award)和VMware系统研究奖(VMware Systems Research Award)。
 
 
本书封面上的动物是燕尾鸢(学名Elanoides forficatus)。这些猛禽在巴西南部到美国东南部的林地和湿地地区被发现, 它们以小型爬行动物、两栖动物和哺乳动物,以及大型昆虫为生,在水源附近筑巢。
燕子鸢往往有20~27英寸长, 在空中滑行时臂展可达4英尺, 使用锋利的叉状尾巴转向。 它们的羽毛黑白相间,形成鲜明的对比。它们大部分时间是在飞行,甚至贴近水面喝水也不会在陆地上停留。
在猛禽动物中,燕尾鸢属于群居动物, 通常以大型群落的形式聚集在一起或栖息过夜。在迁移过程中, 它们可以以成百上千的规模列队飞行。
O’Reilly系列丛书封面上的许多动物都濒临灭绝,所以它们对这个世界来说都很重要。要了解有关如何提供帮助的更多信息,请访问animals.oreilly.com。
封面图片来自Lydekker的The Royal Natural History。
购买选项
定价:128.00元
书号:978-7-5198-4009-9
出版社:中国电力出版社