Spark快速大数据分析
王道远 译
出版时间:2015年09月
页数:210
如今,所有领域的数据量都在急剧增长。如何才能高效利用这些数据呢?本书介绍了开源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。
本书由Spark开发者编写,可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。
通过阅读本书,你可以:
· 快速深入探索Spark功能,比如分布式数据集、内存式缓存,以及交互式shell;
· 充分利用Spark强大的内建库,包括Spark SQL、Spark Streaming和MLlib;
· 使用统一的编程范式而不需要组合使用Hive、Hadoop、Mahout、Storm等工具;
· 学习如何部署交互式应用、批处理应用以及流式计算应用;
· 连接HDFS、Hive、JSON以及S3等数据源;
· 掌握数据分区和共享变量等进阶知识。
书名:Spark快速大数据分析
译者:王道远 译
国内出版社:人民邮电出版社
出版时间:2015年09月
页数:210
书号:978-7-115-40309-4
原版书书名:Learning Spark
原版书出版商:O'Reilly Media
Holden Karau
Holden Karau是一位加拿大人,在IBM的Spark技术中心担任软件开发工程师。同时作为一位Spark committer,经常在PySpark和机器学习方面进行贡献。另外曾在多次国际会议中发表关于Spark的演讲。
Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
Andy Konwinski
Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。
Patrick Wendell
Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。
Matei Zaharia
Matei Zaharia是斯坦福大学计算机科学系助理教授和Databricks的首席技术官。他于2009年在加州大学伯克利分校立了Spark项目,那时他是一名博士生,并继续担任pache Spark项目的副主席。Matei Zaharia还是Apache Mesos项目的联合创始人,也 是Apache Hadoop项目的贡献者。Matei Zaharia以他出色的研究工作获得了2014年美国计算机学会博士论文奖(ACM Doctoral Dissertation Award)和VMware系统研究奖(VMware Systems Research Award)。