《Hadoop技术详解》—

Hadoop技术详解

刘敏, 麦耀锋, 李冀蕾等译

出版时间：2013年11月

页数：248

如果你需要维护庞大而复杂的Hadoop集群，本书正是必备之选。如今，Hadoop正逐渐成为数据中心进行真正的大型数据处理的实际标准，业界对一本能详细介绍Hadoop操作技术的手册的需求也随之迅速上升。本书的作者Eric Sammer系Cloudera公司的首席解决方案架构师，他将从规划、安装、配置系统到提供持续维护等方面展示在生产环境中运行Hadoop的详细情况。
本书是一本实用操作指南，因此并未介绍所有的技术细节，而是突出在关键部署中能起作用的各种操作。
· 概括介绍HDFS和MapReduce，包括其诞生的原因以及工作方式。
· 规划Hadoop配置，从硬件和操作系统的选择到网络需求。
· 学习一系列关键属性的安装和配置细节。
· 通过在多个组之间共享集群来管理资源。
· 提供常见的集群维护任务运行手册。
· 监控Hadoop集群，介绍故障处理的实战经验。
· 使用基本工具和技巧处理备份和灾难性事故。

“本书作者Eric Sammer在设置和运行Hadoop集群的方方面面给出了实用、中肯、通俗易懂的建议，是所有Hadoop系统管理员必读之作。”
——Tom White，Cloudera软件工程师、Apache Hadoop技术专家、Apache软件基金会成员

目录
产品信息
关于作者

第1章　简介　
第2章　hdfs　
2.1　目标和动机　
2.2　设计　
2.3　守护进程　
2.4　读写数据　
2.4.1　数据读取流程
2.4.2　数据写操作流程
2.5　管理文件系统元数据
2.6　namenode的高可用性
2.7　namenode联盟
2.8　访问与集成
2.8.1　命令行工具
2.8.2　用户空间文件系统(fuse)
2.8.3　表示状态传输(rest)的支持
第3章　mapreduce　
3.1　mapreduce的若干阶段
3.2　hadoop mapreduce简介
3.2.1　后台程序
3.2.2　出错处理
3.3　yarn　
第4章　规划一个hadoop集群
4.1　挑选hadoop的发行版本　
4.1.1　apache hadoop　
4.1.2　cloudera的apache hadoop发行版本　
4.1.3　版本和功能
4.1.4　我应该使用哪个版本
4.2　硬件选型
4.2.1　主节点硬件的选择
4.2.2　工作节点的硬件选择
4.2.3　集群的大小
4.2.4　刀片服务器、存储区域网络(san)和虚拟化
4.3　操作系统的选择和准备
4.3.1　部署规划
4.3.2　软件
4.3.3　主机名、dns和标识
4.3.4　用户、组和特权
4.4　内核调整
4.4.1　vm.swappiness　
4.4.2　vm.overcommit_memory　
4.5　磁盘配置
4.5.1　选择文件系统
4.5.2　挂载选项
4.6　网络设计
4.6.1　hadoop中的网络使用：回顾
4.6.2　1 gb与10 gb网络
4.6.3　典型的网络拓扑
第5章　安装和配置
5.1　安装hadoop
5.1.1　apache hadoop
5.1.2　cdh
5.2　配置概述
5.3　环境变量和shell脚本
5.4　日志配置
5.5　hdfs
5.5.1　识别和定位
5.5.2　优化与调整
5.5.3　格式化namenode　
5.5.4　创建/tmp目录
5.6　namenode的高可靠性
5.6.1　隔离(fencing)选项
5.6.2　基本配置
5.6.3　自动失效备援配置
5.6.4　格式化和引导namenode启动
5.7　namenode联盟(federation)
5.8　mapreduce　
5.8.1　识别和定位
5.8.2　优化和调整
5.9　机架拓扑
5.10　安全
第6章　用户标识、身份验证和授权
6.1　用户标识6.2　kerberos和hadoop　
6.2.1　kerberos　
6.2.2　hadoop上的kerberos支持　
6.3　授权　
6.3.1　hdfs　
6.3.2　mapreduce　
6.3.3　其他工具和系统
6.4　集成试试
第7章　资源管理
7.1　何谓资源管理
7.2　hdfs配额
7.3　mapreduce 调度器
7.3.1　先进先出(fifo)调度器
7.3.2　公平调度器
7.3.3　计算能力调度器(capacity scheduler)
7.3.4　未来发展
第8章　集群维护
8.1　hadoop流程管理
8.1.1　用初始化脚本管理进程
8.1.2　手动管理进程
8.2　hdfs维护任务　
8.2.1　添加一个datanode　
8.2.2　卸载datanode　
8.2.3　用fsck来检查文件系统的一致性　
8.2.4　hdfs块数据均衡　
8.2.5　处理坏磁盘　
8.3　mapreduce维护任务　
8.3.1　添加tasktracker　
8.3.2　卸载tasktracker　
8.3.3　终结mapreduce 作业　
8.3.4　终结mapreduce任务　
8.3.5　处理列入黑名单的tasktracker　
第9章　故障分析与排查
9.1　鉴别诊断(differential diagnosis)
9.2　故障和问题
9.2.1　人类(自己)
9.2.2　配置错误
9.2.3　硬件故障
9.2.4　资源枯竭
9.2.5　主机标识和命名
9.2.6　网络分区
9.3 “计算机插好了么？”
9.4　治疗和护理
9.5　实战案例
9.5.1　神秘的瓶颈
9.5.2　127.0.0.1这个地址不存在
第10章　监控
10.1　概览
10.2　hadoop度量(metrics)
10.2.1　apache hadoop 0.20.0和cdh3 (metrics1)
10.2.2　apache hadoop 0.20.203及之后的版本、cdh4(metrics2)
10.2.3　snmp　
10.3　健康监控
10.3.1　主机级别的检查
10.3.2　所有hadoop进程
10.3.3　hdfs检查
10.3.4　mapreduce检查
第11章　备份与恢复
11.1　数据备份
11.1.1　分布式拷贝(distcp)
11.1.2　并行提取数据
11.2　namenode元数据
附录　弃用的配置属性

书名：Hadoop技术详解

作者：Eric Sammer 著

译者：刘敏, 麦耀锋, 李冀蕾等译

国内出版社：人民邮电出版社

出版时间：2013年11月

页数：248

书号：978-7-115-33332-2

原版书书名：Hadoop Operations

原版书出版商：O'Reilly Media

Eric Sammer

Cloudera公司首席架构师，主要工作是协助客户做Hadoop及相关大型项目的规划、部署、使用和开发。他在开发和运营分布式、高并发的数据摄取和处理系统方面拥有丰富的经验。

查看Eric Sammer更多信息

购买选项

定价：59.00元

书号：978-7-115-33332-2

出版社：人民邮电出版社

联系出版社邮购