Hadoop技术详解
Eric Sammer
刘敏, 麦耀锋, 李冀蕾 等译
出版时间:2013年11月
页数:248
如果你需要维护庞大而复杂的Hadoop集群,本书正是必备之选。如今,Hadoop正逐渐成为数据中心进行真正的大型数据处理的实际标准,业界对一本能详细介绍Hadoop操作技术的手册的需求也随之迅速上升。本书的作者Eric Sammer系Cloudera公司的首席解决方案架构师,他将从规划、安装、配置系统到提供持续维护等方面展示在生产环境中运行Hadoop的详细情况。
本书是一本实用操作指南,因此并未介绍所有的技术细节,而是突出在关键部署中能起作用的各种操作。
· 概括介绍HDFS和MapReduce,包括其诞生的原因以及工作方式。
· 规划Hadoop配置,从硬件和操作系统的选择到网络需求。
· 学习一系列关键属性的安装和配置细节。
· 通过在多个组之间共享集群来管理资源。
· 提供常见的集群维护任务运行手册。
· 监控Hadoop集群,介绍故障处理的实战经验。
· 使用基本工具和技巧处理备份和灾难性事故。

“本书作者Eric Sammer在设置和运行Hadoop集群的方方面面给出了实用、中肯、通俗易懂的建议,是所有Hadoop系统管理员必读之作。”
——Tom White,Cloudera软件工程师、Apache Hadoop技术专家、Apache软件基金会成员
  1. 第1章 简介 
  2. 第2章 hdfs 
  3. 2.1 目标和动机 
  4. 2.2 设计 
  5. 2.3 守护进程 
  6. 2.4 读写数据 
  7. 2.4.1 数据读取流程
  8. 2.4.2 数据写操作流程
  9. 2.5 管理文件系统元数据
  10. 2.6 namenode的高可用性
  11. 2.7 namenode联盟
  12. 2.8 访问与集成
  13. 2.8.1 命令行工具
  14. 2.8.2 用户空间文件系统(fuse)
  15. 2.8.3 表示状态传输(rest)的支持
  16. 第3章 mapreduce 
  17. 3.1 mapreduce的若干阶段
  18. 3.2 hadoop mapreduce简介
  19. 3.2.1 后台程序
  20. 3.2.2 出错处理
  21. 3.3 yarn 
  22. 第4章 规划一个hadoop集群
  23. 4.1 挑选hadoop的发行版本 
  24. 4.1.1 apache hadoop 
  25. 4.1.2 cloudera的apache hadoop发行版本 
  26. 4.1.3 版本和功能
  27. 4.1.4 我应该使用哪个版本
  28. 4.2 硬件选型
  29. 4.2.1 主节点硬件的选择
  30. 4.2.2 工作节点的硬件选择
  31. 4.2.3 集群的大小
  32. 4.2.4 刀片服务器、存储区域网络(san)和虚拟化
  33. 4.3 操作系统的选择和准备
  34. 4.3.1 部署规划
  35. 4.3.2 软件
  36. 4.3.3 主机名、dns和标识
  37. 4.3.4 用户、组和特权
  38. 4.4 内核调整
  39. 4.4.1 vm.swappiness 
  40. 4.4.2 vm.overcommit_memory 
  41. 4.5 磁盘配置
  42. 4.5.1 选择文件系统
  43. 4.5.2 挂载选项
  44. 4.6 网络设计
  45. 4.6.1 hadoop中的网络使用:回顾
  46. 4.6.2 1 gb与10 gb网络
  47. 4.6.3 典型的网络拓扑
  48. 第5章 安装和配置
  49. 5.1 安装hadoop
  50. 5.1.1 apache hadoop
  51. 5.1.2 cdh
  52. 5.2 配置概述
  53. 5.3 环境变量和shell脚本
  54. 5.4 日志配置
  55. 5.5 hdfs
  56. 5.5.1 识别和定位
  57. 5.5.2 优化与调整
  58. 5.5.3 格式化namenode 
  59. 5.5.4 创建/tmp目录
  60. 5.6 namenode的高可靠性
  61. 5.6.1 隔离(fencing)选项
  62. 5.6.2 基本配置
  63. 5.6.3 自动失效备援配置
  64. 5.6.4 格式化和引导namenode启动
  65. 5.7 namenode联盟(federation)
  66. 5.8 mapreduce 
  67. 5.8.1 识别和定位
  68. 5.8.2 优化和调整
  69. 5.9 机架拓扑
  70. 5.10 安全
  71. 第6章 用户标识、身份验证和授权
  72. 6.1 用户标识6.2 kerberos和hadoop 
  73. 6.2.1 kerberos 
  74. 6.2.2 hadoop上的kerberos支持 
  75. 6.3 授权 
  76. 6.3.1 hdfs 
  77. 6.3.2 mapreduce 
  78. 6.3.3 其他工具和系统
  79. 6.4 集成试试
  80. 第7章 资源管理
  81. 7.1 何谓资源管理
  82. 7.2 hdfs配额
  83. 7.3 mapreduce 调度器
  84. 7.3.1 先进先出(fifo)调度器
  85. 7.3.2 公平调度器
  86. 7.3.3 计算能力调度器(capacity scheduler)
  87. 7.3.4 未来发展
  88. 第8章 集群维护
  89. 8.1 hadoop流程管理
  90. 8.1.1 用初始化脚本管理进程
  91. 8.1.2 手动管理进程
  92. 8.2 hdfs维护任务 
  93. 8.2.1 添加一个datanode 
  94. 8.2.2 卸载datanode 
  95. 8.2.3 用fsck来检查文件系统的一致性 
  96. 8.2.4 hdfs块数据均衡 
  97. 8.2.5 处理坏磁盘 
  98. 8.3 mapreduce维护任务 
  99. 8.3.1 添加tasktracker 
  100. 8.3.2 卸载tasktracker 
  101. 8.3.3 终结mapreduce 作业 
  102. 8.3.4 终结mapreduce任务 
  103. 8.3.5 处理列入黑名单的tasktracker 
  104. 第9章 故障分析与排查
  105. 9.1 鉴别诊断(differential diagnosis)
  106. 9.2 故障和问题
  107. 9.2.1 人类(自己)
  108. 9.2.2 配置错误
  109. 9.2.3 硬件故障
  110. 9.2.4 资源枯竭
  111. 9.2.5 主机标识和命名
  112. 9.2.6 网络分区
  113. 9.3 “计算机插好了么?”
  114. 9.4 治疗和护理
  115. 9.5 实战案例
  116. 9.5.1 神秘的瓶颈
  117. 9.5.2 127.0.0.1这个地址不存在
  118. 第10章 监控
  119. 10.1 概览
  120. 10.2 hadoop度量(metrics)
  121. 10.2.1 apache hadoop 0.20.0和cdh3 (metrics1)
  122. 10.2.2 apache hadoop 0.20.203及之后的版本、cdh4(metrics2)
  123. 10.2.3 snmp 
  124. 10.3 健康监控
  125. 10.3.1 主机级别的检查
  126. 10.3.2 所有hadoop进程
  127. 10.3.3 hdfs检查
  128. 10.3.4 mapreduce检查
  129. 第11章 备份与恢复
  130. 11.1 数据备份
  131. 11.1.1 分布式拷贝(distcp)
  132. 11.1.2 并行提取数据
  133. 11.2 namenode元数据
  134. 附录 弃用的配置属性
书名:Hadoop技术详解
作者:Eric Sammer
译者:刘敏, 麦耀锋, 李冀蕾 等译
国内出版社:人民邮电出版社
出版时间:2013年11月
页数:248
书号:978-7-115-33332-2
原版书书名:Hadoop Operations
原版书出版商:O'Reilly Media
Eric Sammer
 
Cloudera公司首席架构师,主要工作是协助客户做Hadoop及相关大型项目的规划、部署、使用和开发。他在开发和运营分布式、高并发的数据摄取和处理系统方面拥有丰富的经验。