《基于Apache Spark的流处理》—

基于Apache Spark的流处理

陈志鹏译

出版时间：2021年04月

页数：422

“这本书将带你了解Spark在流处理方面的支持，从早期的 DStream API到后来基于SQL 的Structured Streaming。本书是学习这些知识必备的权威指南。”
——Dean Wampler
Lightbend副总裁、负责快速数据工程建设，《Programming Scala》的共同作者
利用分析工具可以快速获取商业洞察，为此你需要了解如何对数据进行实时处理。通过这本实用指南，对于熟悉Apache Spark的读者来说，你们将了解如何将这个内存框架应用于流数据。你会发现Spark让你几乎可以像面对批处理作业一样来开发流处理作业。
本书介绍了Apache Spark的理论基础。这本综合指南通过两个部分比较了Spark支持的流处理AP：早期的Spark Streaming和后来的 Structured Streaming。
● 学习流处理的基本概念、研究各种流处理架构。
● 通过具体实例来研究Structured Streaming、深入理解流处理概念。
● 通过Spark Streaming创建并管理流作业，使用其他Spark API与Spark Streaming集成。
● 学习Spark Streaming高级技巧，包括近似算法和机器学习算法。
● 将Apache Spark与其他流处理项目比较，包括Apache Storm、Apache Flink和Apache Kafka Streams。

目录
产品信息
关于作者
封面介绍

序
前言
第一部分 Apache Spark流处理的基本原理
第1章流处理概述
什么是流处理
流处理案例
分布式流处理
Apache Spark概述
接下来？
第2章流处理模型
数据源与接收器
不可变流
转换与聚合
窗口聚合
无状态处理与有状态处理
有状态的流
案例：Scala中的本地状态计算
无状态流，还是有状态流？
时间效应
小结
第3章流处理架构
数据平台的组件
体系模型
在流处理应用中使用批处理组件
流处理架构参考
流处理算法与批处理算法
小结
第4章流处理引擎Apache Spark
两种API的由来
Spark的内存使用
延迟
面向吞吐的数据处理
Spark的多语言API
快速实现数据分析
更多关于Spark的内容
小结
第5章 Spark分布式处理模型
通过集群管理器来运行Apache Spark
Spark的集群管理器
分布式系统的弹性与容错
数据交付语义
微批处理与一次处理一个
微批处理与一次处理一个方式地结合
动态的批次间隔
Structured Streaming处理模型
第6章 Spark弹性模型
Spark中的弹性分布式数据集
Spark组件
Spark容错保证
小结
参考文献
第二部分 Structured Streaming
第7章 Structured Streaming概述
学习Structured Streaming之前
批处理分析
流分析
小结
第8章 Structured Streaming编程模型
初始化Spark实例
source：接收流数据
流数据的转换
sink：输出结果数据
小结
第9章 Structured Streaming实战
消费流source
程序逻辑
写入流sink
小结
第10章 Structured Streaming的Source
source概述
可用的source
文件source
Kafka source
Socket source
Rate source
第11章 Structured Streaming的Sink
sink概述
可用的sink
文件sink
Kafka sink
内存sink
控制台sink
Foreach sink
第12章基于事件时间的流处理
Structured Streaming中的事件时间
事件时间
处理时间
水位线
基于时间的窗口聚合
记录去重
小结
第13章高级状态操作
案例：车队管理
分组状态操作
使用MapGroupsWithState
使用FlatMapGroupsWithState
小结
第14章 Structured Streaming 应用监控
Spark指标子系统
StreamingQuery实例
StreamingQueryListener接口
第15章实验性模块：连续处理与机器学习
连续处理
机器学习
参考文献
第三部分 Spark Streaming
第16章 Spark Streaming概述
DStream抽象
Spark Streaming程序结构
小结
第17章 Spark Streaming编程模型
RDD，DStream的底层抽象
DStream转换操作
元素级别的DStream转换
RDD级别的DStream转换
Count操作
修改结构的转换操作
小结
第18章 Spark Streaming执行模型
整体同步架构
Receiver模型
无Receiver（Direct）模式
小结
第19章 Spark Streaming的Source
source分类
常用source
文件source
队列source
工作流程
Socket source
Kafka source
哪里有更多的source
第20章 Spark Streaming的Sink
输出操作
内置的输出操作
使用foreachRDD编写自定义sink
第三方输出操作
第21章基于时间的流处理
窗口聚合
滚动窗口
滑动窗口
使用窗口还是较长的批次间隔
窗口上的reduce操作
可逆的窗口聚合操作
流的分片
小结
第22章任意有状态的流处理
流的状态性
updateStateByKey
updateStateByKey的局限性
使用mapwithState进行有状态的计算
使用mapWithState
使用mapWithState进行基于事件时间的流计算
第23章使用Spark SQL
Spark SQL
在Spark Streaming中使用Spark SQL函数
静态数据处理
Join优化
更新流处理程序中的参考数据集
小结
第24章 checkpoint机制
checkpoint的使用
DStream的checkpoint机制
从checkpoint中恢复
checkpoint的代价
checkpoint调优
第25章 Spark Streaming应用监控
Streaming UI
通过Streaming UI了解作业性能
监控REST API
指标子系统
内部事件总线
小结
第26章性能调优
Spark Streaming中的性能平衡
影响作业性能的外部因素
如何提高性能
调整批次间隔
以固定速率对数据摄入限流
反压
动态限流
缓存
推测执行
参考文献
第四部分 Spark Streaming高级技巧
第27章流式近似与抽样算法
准确性、实时性与大数据
准确性、实时性与大数据之间的三角关系
近似算法
哈希与素描
去重统计：HyperLogLog
统计元素频率：Count-min Sketch
排名与分位数：T-Digest算法
减少元素数量：抽样
第28章实时机器学习
利用朴素贝叶斯进行流分类
决策树介绍
Hoeffding树
使用在线K-means进行流聚类
参考文献
第五部分 Apache Spark 之外的世界
第29章其他分布式实时流处理系统
Apache Storm
Apache Flink
Kafka Streams
云上的流处理系统
第30章展望
紧随Spark项目
参加交流会
贡献Apache Spark项目
参考文献
作者介绍
封面介绍

书名：基于Apache Spark的流处理

作者：Gerard Maas, Francois Garillot 著

译者：陈志鹏译

国内出版社：中国电力出版社

出版时间：2021年04月

页数：422

书号：978-7-5198-5294-8

原版书书名：Stream Processing with Apache Spark

原版书出版商：O'Reilly Media

Gerard Maas

Gerard Maas是Lightbend的首席工程师，致力于将Structured Streaming与其他可扩展的流处理技术无缝地集成到Lightbend平台上。此前他在一家云原生物联网创业公司工作，带领数据处理团队构建流式管道，将Spark Streaming的吞吐量推上了极限。当时还发布了第一篇关于Spark Streaming性能调优的全面指南。
Gerard曾在几家创业公司和大型企业中担任领导角色，构建数据科学管理、云原生物联网平台、电信平台，以及可扩展的API。此外经常在技术会议上发言，并参与贡献各种大大小小的开源项目。Gerard拥有委内瑞拉的西蒙玻利瓦尔大学的计算机工程学位。你可以通过推特@maasg找到他。

查看Gerard Maas更多信息

Francois Garillot

Francois Garillot住在西雅图，在Facebook从事于分布式计算。于2011在巴黎综合理工学院获得博士学位，曾于2015年在Lightbend从事Spark Streaming反压机制研究。他的兴趣包括类型系统、利用编程语言简化分析的表示方法，热爱Scala、Spark以及阿拉比卡（咖啡豆）烘焙。不工作的时候，喜欢在太平洋西北部的山脉享受生活。

查看Francois Garillot更多信息

本书封面上的动物是欧亚喜鹊（学名：Pica pica），遍布于北欧与亚洲，从西班牙、爱尔兰一直到俄罗斯东北部的堪察加半岛。在英语中，鹊（magpie）指的是欧亚喜鹊，不过它们在欧洲、亚洲、中东、北非以及北美各地的鸦族中都有不同的说法。
欧洲喜鹊的雄性和雌性都有引人注目的羽毛。腹部和肩部都是明亮的白色，与光滑、黑色的头部、胸部以及翅膀形成对比。这些黑色区域会根据光线不同闪烁着蓝色或绿色的光泽。雄性喜鹊身长17~18英寸（尾巴约占一半），翼展为20~24英寸；雌性略小一些。喜鹊通常会避开人类，但你可能听过它们响亮的叫声。
欧亚喜鹊是杂食动物。它们以昆虫、腐肉、小型哺乳动物，甚至其他鸟类的幼鸟和蛋、谷物、种子等为食。它们是所有动物中最聪明的一种，拥有像类人猿那样的认知能力：使用工具、记忆、推理以及社会交往。这些特点导致了对喜鹊的一些迷信。欧洲和斯堪的纳维亚文化将它们与偷窃甚至巫术联系起来。在亚洲则相反，人们将它们与好运及客人的光临联系在一起。
虽然欧亚喜鹊种群分布广泛、数量众多，但是O'Reilly出版物封面上的许多动物都濒临灭绝。所有这些动物对世界来说都是很重要的。如果你想了解更多关于如何为它们提供帮助，请访问animals.oreilly.com。
封面的彩色插图由Karen Montgomery根据“Meyers Kleines词典”中的黑白版画创作而成。

购买选项

定价：128.00元

书号：978-7-5198-5294-8

出版社：中国电力出版社

联系出版社邮购