Apache Drill学习手册
李凡希 译
出版时间:2020年05月
页数:332
跟上Apache Drill的步伐!Apache Drill是一个可扩展的分布式SQL查询引擎,它可以从各种主流文件格式中读取数据,比如Parquet、JSON和CSV。它可以访问HDFS或类似S3这样的原生云存储系统,可以与Hive metastore集成,也可以与HBase、MongoDB这样的分布式数据库或传统的关系型数据库集成。它可以在你的笔记本电脑上运行,也可以被部署在超大规模的集群中。
在本书中,Charels Givre和Paul Rogers两位Drill项目的Committer向分析师和数据科学家展示了如何使用这个强大的工具对原始数据进行查询和分析。当今的数据科学家通常需要花费至少80%的时间在收集和清洗数据上,通过阅读本书你会了解到如何使用Drill更高效地分析数据,降低产出数据分析结果所需要的时间。
● 使用Drill来清洗、准备和汇总原始数据供后期分析使用。
● 对日志文件、Parquet文件、JSON和其他复杂的数据文件进行查询。
● 使用标准SQL对Hadoop、关系型数据库、MongoDB和Kafka进行查询。
● 通过各种编程语言访问Drill。
● 使用Drill分析各种结构复杂或存在二义性的数据。
● 通过自定义函数扩展Drill的功能,完成复杂的分析任务。
● 为网络安全、图片元数据或机器学习数据提供分析能力。
- 前言
- 第1章 Apache Drill入门
- 什么是Apache Drill
- 第2章 安装与运行
- 准备系统环境
- 在Windows上安装Drill
- 在macOS或Linux上安装嵌入模式的Drill
- 在macOS或 Linux上安装分布式模式的Drill
- 连接集群
- 小结
- 第3章 Apache Drill概述
- Apache Hadoop生态
- Drill操作概述
- 小结
- 第4章 查询包含分隔符的数据
- 通过Drill查询数据的几种方式
- Drill SQL查询格式
- 理解Drill的数据类型
- 使用字符串处理函数清洗和准备数据
- 操作Drill中的日期和时间
- 创建视图
- 使用Drill进行数据分析
- 查询包含分隔符数据的常见问题
- 小结
- 第5章 分析复合与嵌套数据
- 数组与Map
- 使用Drill分析日志文件
- 小结
- 第6章 把Drill连接到数据源
- 查询多种数据源
- 小结
- 第7章 连接Drill
- 理解Drill的接口
- 使用Python连接Drill
- 用R语言连接Drill
- 通过Java连接Drill
- 在PHP中查询Drill
- 使用Node.js查询Drill
- 在BI工具中使用Drill作为数据源
- 小结
- 第8章 用Drill完成数据工程工作
- 读时Schema
- 数据源推导
- 文件类型推导
- Schema推导概述
- 分布式扫描
- 在文件间保证Schema一致
- JSON对象
- 在Drill中使用Parquet文件格式
- 分区数据目录
- 处理生产环境中的查询
- 小结
- 第9章 在生产环境部署Drill
- 安装Drill
- 配置存储
- 准入控制
- 其他配置
- 监控
- 其他部署选项
- 小结
- 第10章 搭建开发环境
- 安装Maven
- 创建Drill的编译环境
- 安装IDE
- 小结
- 第11章 编写用户自定义函数
- 用例:找出合法的信用卡号码
- Drill中的用户自定义函数是怎么工作的
- Drill的简单UDF结构
- 构建与安装UDF
- 复合函数:返回Map或数组的UDF
- 编写聚合UDF
- 小结
- 第12章 编写格式插件
- 正则表达式格式插件
- 基于Easy框架创建格式插件
- 创建正则表达式格式插件配置类
- 创建格式插件类
- 记录读取器
- 测试读取器
- 其他细节
- 小结
- 第13章 特殊用法
- 查找在特定区域拍摄的照片
- 分析Excel文件
- 用Drill分析网络数据包(PCAP文件)
- 使用Drill分析Twitter数据
- 在机器学习流程中使用Drill
- 小结
- 附录A Drill函数列表
- 附录B Drill格式化字符串
书名:Apache Drill学习手册
译者:李凡希 译
国内出版社:中国电力出版社
出版时间:2020年05月
页数:332
书号:978-7-5198-4398-4
原版书书名:Learning Apache Drill
原版书出版商:O'Reilly Media
Charles Givre
Charles Givre拥有CISSP认证,是德意志银行中央安全办公室(CSO)的首席数据科学家,还是布兰迪斯大学专业研究生院的战略分析项目的主席。他曾在Strata、BlackHat等国际会议上进行了有关数据科学和安全的演讲和培训。他是Apache Drill项目的PMC成员。他拥有亚利桑那大学的计算机科学理学学士学位和长号演奏音乐学士学位以及布兰迪斯大学的文学硕士学位。Charles的博客地址是thedataist.com,Twitter账号是@cgivre。闲暇时间他会跟妻子和孩子们一起玩或是修复英国跑车。
Paul Rogers
Paul Rogers是Apache Drill项目的PMC成员并长期进行系统开发。Paul曾就职于Informix(关系型数据库)、Rational(Rational Rose,UML工具)、Versant(对象数据库)、Actuate(早期的BI工具供应商)、Skytide(早期的大数据分析公司)、Oracle、MapR和Cloudera。他对系统的内部实现很感兴趣:他开发了Drill-on-YARN功能并优化了Drill的向量内存管理。Paul拥有加州大学圣塔芭芭拉分校的理学学士学位和加州大学伯克利分校的工商管理硕士学位。
本书封面上的动物是山魈(学名Mandrillus sphinx),它属于猴科(即旧世界猴,学名Cercopithecidae)山魈属。鬼狒(Drill)是山魈属中的另一种的动物。它们因为与狒狒很相像而一度被归属于狒狒属。
这些灵长类的动物主要栖息地是非洲的喀麦隆南部、加蓬、刚果和赤道几内亚的热带雨林。它们通常以部落的形式成群生活,繁殖季节是七月到九月,并在十二月到次年四月之间生育下一代。山魈是世界上体型最大的猴子,它们以水果和昆虫等杂食为生。
山魈的皮毛是橄榄绿色或深灰色,腹部为白色。它们的脸上没有毛,鼻子两侧有很有特色的蓝色脊,并且中间有一条红色的条纹。山魈的臀部也是彩色的,生殖器周围有蓝色、红色、粉红色和紫色的标记。这些颜色在成年雄性山魈身上更为明显。
吉尼斯世界纪录中记载的最大山魈的体重达到130磅(60千克),但普通山魈的体重大约在22~33磅(雌性)或40~80磅(雄性)左右。山魈的天敌是豹子,但年轻的山魈也常常受到来自冠雕、非洲岩蟒或其它毒蛇的攻击。成年雄性山魈有时可以通过攻击性的对视、用力摇头或拍打地面来抵抗豹子的攻击。它们有时还会使用一些更为安静的交流方式,比如露出牙齿或晃动脑袋。国际自然保护联盟把山魈归为易危物种。
出现在O’Reilly图书封面上的很多动物都濒临灭绝,这些动物对于世界来说都很重要。要了解如何参与保护这些动物,请访问animals.oreilly.com。
封面图片来自Lydekker的Royal Natural History。