基于Apache Spark的流处理
陈志鹏 译
出版时间:2021年04月
页数:422
“这本书将带你了解Spark在流处理方面的支持,从早期的 DStream API到后来基于SQL 的Structured Streaming。本书是学习这些知识必备的权威指南。”
——Dean Wampler
Lightbend副总裁、负责快速数据工程建设, 《Programming Scala》的共同作者
利用分析工具可以快速获取商业洞察,为此你需要了解如何对数据进行实时处理。通过这本实用指南,对于熟悉Apache Spark的读者来说,你们将了解如何将这个内存框架应用于流数据。你会发现Spark让你几乎可以像面对批处理作业一样来开发流处理作业。
本书介绍了Apache Spark的理论基础。这本综合指南通过两个部分比较了Spark支持的流处理AP:早期的Spark Streaming和后来的 Structured Streaming。
● 学习流处理的基本概念、研究各种流处理架构。
● 通过具体实例来研究Structured Streaming、深入理解流处理概念。
● 通过Spark Streaming创建并管理流作业,使用其他Spark API与Spark Streaming集成。
● 学习Spark Streaming高级技巧,包括近似算法和机器学习算法。
● 将Apache Spark与其他流处理项目比较,包括Apache Storm、Apache Flink和Apache Kafka Streams。
书名:基于Apache Spark的流处理
译者:陈志鹏 译
国内出版社:中国电力出版社
出版时间:2021年04月
页数:422
书号:978-7-5198-5294-8
原版书书名:Stream Processing with Apache Spark
原版书出版商:O'Reilly Media
Gerard Maas
Gerard Maas是Lightbend的首席工程师,致力于将Structured Streaming与其他可扩展的流处理技术无缝地集成到Lightbend平台上。此前他在一家云原生物联网创业公司工作,带领数据处理团队构建流式管道,将Spark Streaming的吞吐量推上了极限。当时还发布了第一篇关于Spark Streaming性能调优的全面指南。
Gerard曾在几家创业公司和大型企业中担任领导角色,构建数据科学管理、云原生物联网平台、电信平台,以及可扩展的API。此外经常在技术会议上发言,并参与贡献各种大大小小的开源项目。Gerard拥有委内瑞拉的西蒙玻利瓦尔大学的计算机工程学位。你可以通过推特@maasg找到他。
Francois Garillot
Francois Garillot住在西雅图,在Facebook从事于分布式计算。于2011在巴黎综合理工学院获得博士学位,曾于2015年在Lightbend从事Spark Streaming反压机制研究。他的兴趣包括类型系统、利用编程语言简化分析的表示方法,热爱Scala、Spark以及阿拉比卡(咖啡豆)烘焙。不工作的时候,喜欢在太平洋西北部的山脉享受生活。
本书封面上的动物是欧亚喜鹊(学名:Pica pica),遍布于北欧与亚洲,从西班牙、爱尔兰一直到俄罗斯东北部的堪察加半岛。在英语中,鹊(magpie)指的是欧亚喜鹊,不过它们在欧洲、亚洲、中东、北非以及北美各地的鸦族中都有不同的说法。
欧洲喜鹊的雄性和雌性都有引人注目的羽毛。腹部和肩部都是明亮的白色,与光滑、黑色的头部、胸部以及翅膀形成对比。这些黑色区域会根据光线不同闪烁着蓝色或绿色的光泽。雄性喜鹊身长17~18英寸(尾巴约占一半),翼展为20~24英寸;雌性略小一些。喜鹊通常会避开人类,但你可能听过它们响亮的叫声。
欧亚喜鹊是杂食动物。它们以昆虫、腐肉、小型哺乳动物,甚至其他鸟类的幼鸟和蛋、谷物、种子等为食。它们是所有动物中最聪明的一种,拥有像类人猿那样的认知能力:使用工具、记忆、推理以及社会交往。这些特点导致了对喜鹊的一些迷信。欧洲和斯堪的纳维亚文化将它们与偷窃甚至巫术联系起来。在亚洲则相反,人们将它们与好运及客人的光临联系在一起。
虽然欧亚喜鹊种群分布广泛、数量众多,但是O'Reilly出版物封面上的许多动物都濒临灭绝。所有这些动物对世界来说都是很重要的。如果你想了解更多关于如何为它们提供帮助,请访问animals.oreilly.com。
封面的彩色插图由Karen Montgomery根据“Meyers Kleines词典”中的黑白版画创作而成。