高性能Spark
夏锐, 陈志鹏, 李迅, 赵立攀 译
出版时间:2022年05月
页数:369
在一切都顺利时,Apache Spark会带给你极致的体验。但如果你没有达到所希望的性能提升结果,或者对于生产上应用Spark没有足够 的信心,那么这本书对你来说很实用。在这里,本书作者通过一些性能优化让Spark查询运行得更快,能够处理更大的数据量级,同时只用到更少的资源。
本书提到的相关技术可以节约数据系统架构的成本以及开发人员的时间,适用软件工程师、数据工程师,以及面对大规模数据应用的系统管理员。此外你还可以加深对Spark的理解,然后学会如何驾驭它。
通过本书,你可以了解到:
● Spark SQL的新接口如何为SQL的RDD数据结构提升性能。
● Spark Core与Spark SQL中数据join的不同选择方式。
● 充分利用标准RDD转换的技术。
● 如何解决Spark中键值范式的性能问题。
● 不借助Scala或其他JVM语言来编写高性能的Spark代码。
● 采用改进建议后,如何来测试其功能及性能情况。
● 使用Spark MLlib和Spark ML机器学习库。
● Spark的流处理组件、外部的社区扩展包。
- 前言
- 第1章 高性能 Spark 介绍
- 1.1 Spark 是什么以及性能的重要性
- 1.2 你可以从本书中得到什么
- 1.3 Spark 版本
- 1.4 为什么是 Scala ?
- 1.5 小结
- 第 2 章 Spark 运行原理
- 2.1 Spark 如何融入大数据生态系统
- 2.2 Spark 并行计算模型:RDD
- 2.3 Spark 作业调度
- 2.4 Spark Job 剖析
- 第 3 章 DataFrame、Dataset 和 Spark SQL
- 3.1 从 SparkSession(或者 HiveContext 和 SQLContext)入门
- 3.2 Spark SQL 依赖
- 3.3 schema 基础.
- 3.4 DataFrame API
- 3.5 DataFrame 和 Dataset 中的数据表示
- 3.6 数据加载和保存函数
- 3.7 Dataset
- 3.8 使用用户自定义的函数和聚合函数(UDF、UDAF)进行扩展
- 3.9 查询优化器
- 3.10 调试 Spark SQL 查询
- 3.11 JDBC/ODBC 服务器
- 3.12 小结
- 第 4 章 Join (SQL 和 Spark Core)
- 4.1 Spark Core 中的 Join
- 4.2 Spark SQL 中的 Join
- 4.3 小结
- 第 5 章 高效的转换
- 5.1 窄转换与宽转换
- 5.2 转换会返回什么类型的 RDD
- 5.3 最小化对象创建成本
- 5.4 mapPartitions 迭代器到迭代器的转换
- 5.5 集合操作
- 5.6 降低初始化开销
- 5.7 重用 RDD
- 5.8 小结
- 第 6 章 处理键值对数据
- 6.1 金发女孩案例
- 6.2 键值对上的行动操作
- 6.3 groupByKey 函数有什么风险
- 6.4 选择聚合操作
- 6.5 涉及多个 RDD 的操作
- 6.6 分区器和键值对数据
- 6.7 OrderedRDDFunctions 字典
- 6.8 二级排序和 repartitionAndSortWithinPartitions
- 6.9 掉队检测与不均衡数据
- 6.10 小结
- 第 7 章 Scala 之外
- 7.1 JVM 之内、Scala 之外
- 7.2 Scala 之外、JVM 之外
- 7.3 在 Spark 中调用其他语言
- 7.4 未来
- 7.5 小结
- 第 8 章 测试和验证
- 8.1 单元测试
- 8.2 获取测试数据
- 8.3 用 ScalaCheck 检查属性
- 8.4 集成测试
- 8.5 性能验证
- 8.6 作业验证
- 8.7 小结
- 第 9 章 Spark MLlib 和 ML
- 9.1 在 Spark MLlib 和 Spark ML 之间选择
- 9.2 使用 MLlib
- 9.3 使用 Spark ML
- 9.4 一般服务考量因素
- 9.5 小结
- 第 10 章 Spark 组件和包
- 10.1 基于 Spark 的流处理
- 10.2 GraphX
- 10.3 使用社区包和库
- 10.4 小结
- 附录 调优、调试以及开发者容易忽略的其他问题
书名:高性能Spark
译者:夏锐, 陈志鹏, 李迅, 赵立攀 译
国内出版社:中国电力出版社
出版时间:2022年05月
页数:369
书号:978-7-5198-6353-1
原版书书名:High Performance Spark
原版书出版商:O'Reilly Media
Holden Karau
Holden Karau是一位加拿大人,在IBM的Spark技术中心担任软件开发工程师。同时作为一位Spark committer,经常在PySpark和机器学习方面进行贡献。另外曾在多次国际会议中发表关于Spark的演讲。
Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
Rachel Warren
Rachel Warren是Alpine Data的软件工程师和数据科学家。在工作中,她利用Spark来解决实际场景中的数据处理和机器学习问 题。另外,她还曾在工业界以及学术界担任过分析师和导师。
本书封面上的动物是一种原产于东南亚和印度次大陆的火尾太阳鸟(学名: Aethopyga ignicauda)。而太阳鸟是美洲蜂鸟和澳大利亚食蜜鸟的远亲。
顾名思义,这些鸟类(特别是雄性)的颜色非常鲜艳。它们的尾巴和颈后都是红色的,翅膀是绿色的,肚子是黄色和橙色的,头部是彩虹蓝的。雄性火尾太阳鸟比雌性稍大一些,平均身长15厘米。配对的双方都会参与哺育幼崽。
火尾太阳鸟的首选栖息地是针叶林,在那里以昆虫和花蜜为食。向下弯曲的喙和管 状的舌头有助于它进入花朵觅食。
O’Reilly封面上的许多动物都濒临灭绝,而它们对于这个世界很重要。想要了解更多 关于如何提供帮助的信息,请访问animals.oreilly.com。
封面图片来自Wood’s Illustrated Natural History。