Hadoop应用架构
Mark Grover, Ted Malaska, Jonathan Seidman, Gwen Shapira
郭文超 译
出版时间:2017年01月
页数:278
本书就使用Apache Hadoop端到端数据管理方案提供专业架构指导。其他书籍大多针对Hadoop生态系统中的软件,讲解较为单一的使用方法,而本书偏重实践,在架构的高度详细阐释诸多工具如何相互配合,搭建出打磨之后的完整应用。书中提供了诸多案例,易于理解,配有代码解析,知识点一目了然。
为加强训练,本书后半部分内容深入讲解案例,涵盖最为常见的Hadoop应用架构。无论是设计Hadoop应用,还是将Hadoop同现有数据基础架构集成,本书都可以提供详实的参考。

● 使用Hadoop进行数据存储和建模的着眼点和思路
● 将数据输入、输出系统的最佳方案
● MapReduce、Spark和Hive等数据处理框架介绍
● 数据去重、窗口分析等常见Hadoop处理模式应用
● 在Hadoop上采用Giraph、GraphX等图形处理工具
● 综合使用工作流以及Apache Oozie等调度工具
● 以Apache Oozie、Apache Spark Streaming和Apache Flume进行近实时流处理
● 点击流分析、欺诈检验和数据仓库的架构案例
  1. 前言
  2. 第一部分 考虑Hadoop应用的架构设计
  3. 第一章 Hadoop数据建模
  4. 第二章 Hadoop数据移动
  5. 第三章 Hadoop数据处理
  6. 第四章 常见Hadoop处理范式
  7. 第五章 Hadoop图处理
  8. 第六章 协调调度
  9. 第七章 Hadoop近实时处理
  10. 第二部分 案例研究
  11. 第八章 点击流分析
  12. 第九章 欺诈检测
  13. 第十章 数据仓库
  14. 附录 A Impala中的关联
  15. 索引
  16. 作者简介
书名:Hadoop应用架构
译者:郭文超 译
国内出版社:人民邮电出版社
出版时间:2017年01月
页数:278
书号:978-7-115-44243-7
原版书书名:Hadoop Application Architectures
原版书出版商:O'Reilly Media
Mark Grover
 
pache Sentry项目管理委员会成员,《Hive编程指南》作者之一,曾参与Apache Hadoop、Apache Hive、Apache Sqoop以及Apache Flume等项目,并为Apache Bigtop项目和Apache Sentry(项目孵化中)项目贡献代码。
 
 
Ted Malaska
 
Cloudera公司的解决方案架构师,致力于帮助客户更好地掌握Hadoop及其生态系统。曾任美国金融业监管局(FINRA,Financial Industry Regulatory Authority)首席架构师,指导建设了包括网络应用、服务型架构以及大数据应用在内的大量解决方案。曾为Apache Flume、Apache Avro、YARN以及Apache Pig等项目贡献代码。
 
 
Jonathan Seidman
 
Cloudera公司的解决方案架构师,协助合作伙伴将的解决方案集成到Cloudera的软件栈中。芝加哥Hadoop用户组(Chicago Hadoop User Group)及芝加哥大数据(Chicago Big Data)的联合创始人、《Hadoop实战》技术编辑。曾任Orbiz Worldwide公司大数据团队技术主管,为繁忙的站点管理了承载海量数据的Hadoop集群。也曾多次在Hadoop及大数据专业会议上发言。
 
 
Gwen Shapira
 
Cloudera公司的解决方案架构师,知名博主,拥有15年从业经验,协助客户设计高扩展性的数据架构。曾任Pythian高级顾问、Oracle ACE主管以及NoCOUG董事会成员,活跃于诸多业内会议。