高性能Spark
Holden Karau, Rachel Warren
夏锐, 陈志鹏, 李迅, 赵立攀 译
出版时间:2022年01月
页数:369
在一切都顺利时,Apache Spark会带给你极致的体验。但如果你没有达到所希望的性能提升结果,或者对于生产上应用Spark没有足够 的信心,那么这本书对你来说很实用。在这里,本书作者通过一些性能优化让Spark查询运行得更快,能够处理更大的数据量级,同时只用到更少的资源。
本书提到的相关技术可以节约数据系统架构的成本以及开发人员的时间,适用软件工程师、数据工程师,以及面对大规模数据应用的系统管理员。此外你还可以加深对Spark的理解,然后学会如何驾驭它。
通过本书,你可以了解到:
● Spark SQL的新接口如何为SQL的RDD数据结构提升性能。
● Spark Core与Spark SQL中数据join的不同选择方式。
● 充分利用标准RDD转换的技术。
● 如何解决Spark中键值范式的性能问题。
● 不借助Scala或其他JVM语言来编写高性能的Spark代码。
● 采用改进建议后,如何来测试其功能及性能情况。
● 使用Spark MLlib和Spark ML机器学习库。
● Spark的流处理组件、外部的社区扩展包。
  1. 前言
  2. 第1章 高性能 Spark 介绍
  3. 1.1 Spark 是什么以及性能的重要性
  4. 1.2 你可以从本书中得到什么
  5. 1.3 Spark 版本
  6. 1.4 为什么是 Scala ?
  7. 1.5 小结
  8. 第 2 章 Spark 运行原理
  9. 2.1 Spark 如何融入大数据生态系统
  10. 2.2 Spark 并行计算模型:RDD
  11. 2.3 Spark 作业调度
  12. 2.4 Spark Job 剖析
  13. 第 3 章 DataFrame、Dataset 和 Spark SQL
  14. 3.1 从 SparkSession(或者 HiveContext 和 SQLContext)入门
  15. 3.2 Spark SQL 依赖
  16. 3.3 schema 基础.
  17. 3.4 DataFrame API
  18. 3.5 DataFrame 和 Dataset 中的数据表示
  19. 3.6 数据加载和保存函数
  20. 3.7 Dataset
  21. 3.8 使用用户自定义的函数和聚合函数(UDF、UDAF)进行扩展
  22. 3.9 查询优化器
  23. 3.10 调试 Spark SQL 查询
  24. 3.11 JDBC/ODBC 服务器
  25. 3.12 小结
  26. 第 4 章 Join (SQL 和 Spark Core)
  27. 4.1 Spark Core 中的 Join
  28. 4.2 Spark SQL 中的 Join
  29. 4.3 小结
  30. 第 5 章 高效的转换
  31. 5.1 窄转换与宽转换
  32. 5.2 转换会返回什么类型的 RDD
  33. 5.3 最小化对象创建成本
  34. 5.4 mapPartitions 迭代器到迭代器的转换
  35. 5.5 集合操作
  36. 5.6 降低初始化开销
  37. 5.7 重用 RDD
  38. 5.8 小结
  39. 第 6 章 处理键值对数据
  40. 6.1 金发女孩案例
  41. 6.2 键值对上的行动操作
  42. 6.3 groupByKey 函数有什么风险
  43. 6.4 选择聚合操作
  44. 6.5 涉及多个 RDD 的操作
  45. 6.6 分区器和键值对数据
  46. 6.7 OrderedRDDFunctions 字典
  47. 6.8 二级排序和 repartitionAndSortWithinPartitions
  48. 6.9 掉队检测与不均衡数据
  49. 6.10 小结
  50. 第 7 章 Scala 之外
  51. 7.1 JVM 之内、Scala 之外
  52. 7.2 Scala 之外、JVM 之外
  53. 7.3 在 Spark 中调用其他语言
  54. 7.4 未来
  55. 7.5 小结
  56. 第 8 章 测试和验证
  57. 8.1 单元测试
  58. 8.2 获取测试数据
  59. 8.3 用 ScalaCheck 检查属性
  60. 8.4 集成测试
  61. 8.5 性能验证
  62. 8.6 作业验证
  63. 8.7 小结
  64. 第 9 章 Spark MLlib 和 ML
  65. 9.1 在 Spark MLlib 和 Spark ML 之间选择
  66. 9.2 使用 MLlib
  67. 9.3 使用 Spark ML
  68. 9.4 一般服务考量因素
  69. 9.5 小结
  70. 第 10 章 Spark 组件和包
  71. 10.1 基于 Spark 的流处理
  72. 10.2 GraphX
  73. 10.3 使用社区包和库
  74. 10.4 小结
  75. 附录 调优、调试以及开发者容易忽略的其他问题
书名:高性能Spark
译者:夏锐, 陈志鹏, 李迅, 赵立攀 译
国内出版社:中国电力出版社
出版时间:2022年01月
页数:369
书号:978-7-5198-6353-1
原版书书名:High Performance Spark
原版书出版商:O'Reilly Media
Holden Karau
 
Holden Karau是一位加拿大人,在IBM的Spark技术中心担任软件开发工程师。同时作为一位Spark committer,经常在PySpark和机器学习方面进行贡献。另外曾在多次国际会议中发表关于Spark的演讲。
Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
 
 
Rachel Warren
 
Rachel Warren是Alpine Data的软件工程师和数据科学家。在工作中,她利用Spark来解决实际场景中的数据处理和机器学习问 题。另外,她还曾在工业界以及学术界担任过分析师和导师。
 
 
本书封面上的动物是一种原产于东南亚和印度次大陆的火尾太阳鸟(学名: Aethopyga ignicauda)。而太阳鸟是美洲蜂鸟和澳大利亚食蜜鸟的远亲。
顾名思义,这些鸟类(特别是雄性)的颜色非常鲜艳。它们的尾巴和颈后都是红色的,翅膀是绿色的,肚子是黄色和橙色的,头部是彩虹蓝的。雄性火尾太阳鸟比雌性稍大一些,平均身长15厘米。配对的双方都会参与哺育幼崽。
火尾太阳鸟的首选栖息地是针叶林,在那里以昆虫和花蜜为食。向下弯曲的喙和管 状的舌头有助于它进入花朵觅食。
O’Reilly封面上的许多动物都濒临灭绝,而它们对于这个世界很重要。想要了解更多 关于如何提供帮助的信息,请访问animals.oreilly.com。
封面图片来自Wood’s Illustrated Natural History。