《Hadoop Hacks（中文版）》—

Hadoop Hacks（中文版）

常娜, 陈新译

出版时间：2013年11月

页数：374

本书面向已经掌握了Hadoop基础知识的读者，总结了实际环境下灵活操作Hadoop的方法和技巧。这些技巧涵盖的内容非常广泛，包括了从系统构建/运行、应用程序开发等灵活利用Hadoop特性的方法，到有关HBase、Hive、Pig、Mahout、ZooKeeper等子项目的技巧。书中描述了高效利用Hadoop所必备的工具及其使用方法、了解内部运行情形的方法、先进技术等开发环境必备的74个技巧。本书由较早开始关注并在实际项目中灵活使用Hadoop的技术人员执笔，是那些希望快速运用Hadoop 的工程师必备的一本工具书。

目录
产品信息
关于作者

前言
第1章系统架构/运用技巧
运行HDFS环境的参数
运行MapReduce环境需要的参数
总结
文件描述符的设置
Java的安装
总结
本技巧中介绍的HA的构成
HA集群的构建过程
疑难解答
总结
可以获取的统计信息
总结
关于CDH3同一版本间的更新
总结
准备
理解操作
使用Oracle的操作确认
总结
Sqoop的PostgreSQL联合功能
在PostgreSQL中的使用
PostgreSQL联合的挑战
总结
什么是Azkaban
Azkaban的安装
总结
作业的定制
总结
第2章应用程序开发技巧
将Hadoop配置文件拷贝到外部应用程序
从应用程序操作MapReduce
总结
什么是InMapperCombiner
InMapperCombiner的实现方法
总结
自定义Writable类型主要分为两种
如何生成一个Writable接口的子类
总结
自定义Partitioner的实现方法
总结
什么是DistributedCache
DistributedCache的使用
总结
自定义CombineFileInputFormat的实现
自定义CombineFileInputFormat的使用
总结
获取MRUnit Jar文件
Map的测试
Reduce的测试
测试MapReduce作业
总结
生成自定义Writable
生成GroupingComparatorClass
生成PartitionerClass
生成SortComparatorClass
设置各个Comparator
总结
数据的内容
Map端连接的代码
输出结果
单独读入文件进行连接
总结
数据的内容
Map的定义
Reduce的定义
作业的定义
输出结果
总结
定义作业
总结
InputFormat类
OutputFormat类
总结
Cassandra的hadoop程序包内容
Map类
Reduce类
定义作业
总结
获取文件系统信息
操作HDFS的API
总结
分析的要点
用计数器可以确认的项目
处理结束后的确认方法
经过一定时间后的确认方法
作业历史的管理方法
总结
Hadoop中可以处理的压缩格式
Hadoop中处理lzo压缩的准备
在MapReduce程序中处理压缩文件
在Hive中处理压缩文件
总结
第3章 HBase技巧
importtsv工具
completebulkload工具
总结
sqoop import
自定义PutTransformer
总结
用于HFileOutputFormat的Mapper
作业的设置
总结
Java API
HBase shell
总结
什么是协处理器
Observer
Endpoint
总结
创建自定义Filter
配置自定义Filter
总结
export工具
import工具
总结
复制机制
配置
数据的确认
总结
第4章 Hive技巧
SQL语句和HiveQL语句的书写方法的不同
SELECT句中不存在的列不能排序
NULL的处理
ROWNUM关联
总结
标点字符、带圈字符的存在
PK的存在
加载数据
Join时的数据保持方法
WHERE句中的比较条件
置换处理和UDF
key数和Out Of Memory
总结
处理单位
ORDER BY语句和SORT BY语句
输出中间连接表
MapReduce任务不发生的处理
一次连接多个表
总结
查询高速化的探讨
总结
Hive的用户定义函数
UDF的安装
UDAF的实现
使用用户定义函数
总结
什么是SerDe
文本数据的情况（使用RegexSerDe）
文本数据的情况（使用CSV用的非标准SerDe）
结构化/二进制数据的场合（使用JSON用的非标准SerDe）
总结
使用TRANSFORM句
使用UDAF
总结
使用注释
使用模式
使用锁定机制
总结
流程
使用方法
总结
Hive的日志的种类
通过Hive会话日志可以确认的内容
总结
Hive-HDFS-RDBMS的关系
向Hive的直接导入
文件形式和直接导入的关系
列指定·WHERE条件指定
指定了Hive的分区key的导入
总结
Hive→Oracle的差异数据的交换
总结
第5章 Pig技巧
进行LOAD处理要实现的项目
进行STORE处理需要实现的项目
在一个UDF中实现LOAD和STORE的处理
总结
数据的保存方法
MapReduce作业的评价方法
用户单独的处理
输出的日志
总结
Pig的用户定义函数
用户定义函数中可以使用的数据类型
用户定义函数的实现和使用方法
总结
Java中的PigLatin嵌入方法
执行范例
总结
DESCRIBE：确认数据结构
EXPLAIN：确认MapReduce的执行计划
DUMP：显示处理内容
总结
数学函数
字符串操作函数
总结
第6章 Mahout技巧
可以做什么
推荐（Recommendation）
聚类（Clustering）
分类（Classification）
其他
总结
安装
执行方法
总结
总结
输入数据的形式
处理的执行
执行命令的内容
与文本数据的对应
总结
输入数据
执行关联分析
执行结果文件
总结
从学习（预测模型）到预测的过程
预测模型的构建和应用
总结
分布式并行化的必要性
随机森林的分布式并行图像
In-memory模式
总结
应用例子
创建方法
创建驱动程序
使用驱动程序
总结
K平均法
输入数据的形式
输入数据的变换
执行kmeans
获取执行结果
结果文件的内容
总结
第7章 ZooKeeper技巧
客户端程序库
简单的API
与ZooKeeper的连接和断开
znode的创建
确认znode的存在
从znode读取数据
znode中写入数据
删除znode
获取子节点的列表
总结
认证方案
ACL和权限
ACL的设置（setACL）
获取ACL（getACL）
总结
操作
总结
启动
连接
操作数据
尝试监视
完成
总结
体系结构
Rest服务器的启动
总结
C客户端程序库
总结
什么是tickTime？
设置方法
设置其他tickTime影响的项目
以其他tickTime为基准进行的处理
总结
什么是ZAB
使用ZAB的ZooKeeper内部处理
两阶段提交
总结
构成ensemble
leader选出运算法则
总结
状态
总结
分组
权重
总结
分布并行队列的实现
总结
什么是BookKeeper
BookKeeper的基本操作
尝试BookKeeper
有效利用BookKeeper
总结
实现介绍
使用方法
使用示例
总结

书名：Hadoop Hacks（中文版）

作者：中野猛, 山下真一, 猿田浩辅, 上新卓也, 小林隆著

译者：常娜, 陈新译

国内出版社：中国电力出版社

出版时间：2013年11月

页数：374

书号：978-7-5123-4635-2

原版书书名：HADOOP HACKS

原版书出版商：O'Reilly Media

中野猛

中野猛（nakano takeshi）
1976年出生于兵库县。从奈良先端大学毕业后进入招聘股份公司工作。在信息系统部门MIT中，从事Web基础设施的构建以及R25等网站建立、开发、运用等。期间，推进了Solr等OSS的导入和高速缓存、中间件开发等。近两年正在以Hadoop为中心进行探索研究。爱好是潜水（最喜欢的地方是墨西哥、拉巴斯）。twitter：@tf0054

查看中野猛更多信息

山下真一

山下真一（yamashita sinichi）
NTT股份公司数据专员。进入公司以来一直从事基于OSS的基础系统的配置、构建、评价。最近增加了以Hadoop为中心的基础系统的配置、构建、评价的研究，正在研究效率更高的处理MapReduce的方法。相比Hive来说，更偏好Pig。

查看山下真一更多信息

猿田浩辅

猿田浩辅（saruta kousuke）
NTT股份公司数据勤务。2009年进入公司以来，从事以Hadoop为开端的OSS的导入支持和技术验证与开发工作。目前，不仅构建了规模达数百台的Hadoop集群，还在实施应用程序的设计支持等。最近进行从RDBMS向Hive的业务移动和Pig的导入支持等工作。特别喜欢猫，爱吃甜食，自称“甜点工程师”。

查看猿田浩辅更多信息

上新卓也

上新卓也（ueshin takuya）
从事过网络开发公司中的广告系统和存取解析，后来成为自由职业者。通过工作了解到Hadoop，特别热衷于HBase，在自己家中正在使用HBase集群。目前就职于Nautilus技术股份公司。twitter：@ueshin

查看上新卓也更多信息

小林隆

小林隆（kobayeshi ryu）
最近主要从事使用cloud的开发、使用Hadoop的MapReduce的开发，以及使用NoSQL的开发。另外，还开发了Cassndra公开源代码的GUI（http://code.google.com/a/apache-extras.org/p/cassandra-gui/）。翻译作品有“Cassandra”（O’Reilly）等。twitter：@ryu_kobayashi

查看小林隆更多信息

购买选项

定价：58.00元

书号：978-7-5123-4635-2

出版社：中国电力出版社

联系出版社邮购