Spark快速大数据分析(第2版)
王道远 译
出版时间:2021年11月
页数:314
毋庸置疑,数据已经成为现代化企业的重要资产,大数据分析技术则是企业挖掘数据价值的核心利器。一直以来,Spark就是大数 据分析领域的佼佼者,也已经成为一站式大数据分析引擎的事实标准。
本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark,并了解如何利用它适应这个属于大数据和机器学习的新时代。第2版在第1版的基础上做了大量更新,涵盖Spark 3.0的新特性,并着重展示如何利用机器学习算法执行大数据分析。
● 学习使用Python、Java、Scala的结构化数据API
● 理解Spark SQL引擎的原理
● 掌握Spark应用的优化技巧
● 了解如何读写数据源:JSON、Parquet、CSV、Avro、ORC等
● 使用Structured Streaming分析批式数据和流式数据
● 使用Spark和Delta Lake构建湖仓一体的系统
● 使用MLlib开发机器学习流水线
书名:Spark快速大数据分析(第2版)
译者:王道远 译
国内出版社:人民邮电出版社
出版时间:2021年11月
页数:314
书号:978-7-115-57601-9
原版书书名:Learning Spark, 2nd Edition
原版书出版商:O'Reilly Media
Jules S. Damji
朱尔斯·S. 达米吉(Jules S. Damji)是Databricks的高级开发人员,也是MLflow的贡献者。
Brooke Wenig
布鲁克·韦尼希(Brooke Wenig)是Databricks的机器学习专家。
Tathagata Das
泰瑟加塔·达斯(Tathagata Das)是Databricks的软件工程师,也是Apache Spark PMC成员。
Denny Lee
丹尼·李(Denny Lee)是Databricks的软件工程师。