数据工程之道:设计和构建健壮的数据系统
王梦蛟, 阳沁珂, 李佳宁, 李卓恒 译
出版时间:2024年03月
页数:357
“数据工程发展至今已经经历过多轮迭代。从事数据工程的人员从数据库设计师开始,发展到数据库管理员、CIO、数据架构师。这本书揭示了数据行业的迭代和发展方向,是数据工程领域专业提升和职业发展的必读书。”
——Bill Inmon
数据仓库之父
“这是一本非常好的介绍移动、处理和操作数据的书。我向所有想要快速提高数据工程或者数据分析能力的人,以及想要查漏补缺的从业人员强烈推荐这本书。”
——Jordan Tigani
MotherDuck的创始人和CEO,BigQuery的初创工程师和联合创始人
数据工程在过去的十几年发展迅速,许多软件工程师、数据科学家和分析师想要追寻数据工程的全景。通过这本实用的书,你将学会通过数据工程生命周期框架评估现有的最佳技术,从而规划和构建系统来满足组织和客户的需求。
作者将带领你了解数据工程生命周期,并展示各种云技术的组合运用来满足下游数据消费者的需求。你将了解如何应用数据生成、摄取、编排、转换、存储和治理的概念,无论底层技术如何,这些概念在任何数据环境中都至关重要。
本书将帮助你:
● 全面概览数据工程领域。
● 使用端到端的最佳实践框架来评估数据工程问题。
● 看穿营销炒作,选择正确的技术、数据架构和流程。
● 使用数据工程生命周期来设计和构建健壮的架构。
● 将数据治理和数据安全融入数据工程生命周期。
- 前言
- 第一部分 基础和构建块
- 第1章 数据工程概述
- 1.1 什么是数据工程
- 1.2 数据工程技能和活动
- 1.3 组织内部的数据工程师
- 1.4 总结
- 1.5 补充资料
- 第2章 数据工程生命周期
- 2.1 什么是数据工程生命周期
- 2.2 数据工程生命周期中的主要底层设计
- 2.3 总结
- 2.4 补充资料
- 第3章 设计好的数据架构
- 3.1 什么是数据架构
- 3.2 好的数据架构的原则
- 3.3 主要架构概念
- 3.4 数据架构的示例和类型
- 3.5 谁参与了数据架构的设计
- 3.6 总结
- 3.7 补充资料
- 第4章 根据数据生命周期选择技术
- 4.1 团队大小和能力
- 4.2 加速市场化
- 4.3 互操作性
- 4.4 成本优化和商业价值
- 4.5 现在与未来:不变的与暂时的技术
- 4.6 部署位置
- 4.7 构建与购买
- 4.8 单体与模块化
- 4.9 无服务器与服务器
- 4.10 优化、性能和基准战争
- 4.11 底层设计及其对技术选择的影响
- 4.12 总结
- 4.13 补充资料
- 第二部分 深入数据工程生命周期
- 第5章 源系统中的数据生成
- 5.1 数据源:数据是如何生成的?
- 5.2 源系统:主要观点
- 5.3 源系统实际细节
- 5.4 你和谁一起工作
- 5.5 数据底层设计及其对源系统的影响
- 5.6 总结
- 5.7 补充资料
- 第6章 存储
- 6.1 数据存储的原材料
- 6.2 数据存储系统
- 6.3 数据工程存储抽象
- 6.4 存储的重要思想和趋势
- 6.5 你和谁一起工作
- 6.6 底层设计
- 6.7 总结
- 6.8 补充资料
- 第7章 获取
- 7.1 什么是数据获取
- 7.2 数据获取阶段的关键工程考虑因素
- 7.3 批量获取的考虑因素
- 7.4 消息和流获取的考虑因素
- 7.5 获取数据的方式
- 7.6 你和谁一起工作
- 7.7 底层设计
- 7.8 总结
- 7.9 补充资料
- 第8章 查询、建模和转换
- 8.1 查询
- 8.2 数据建模
- 8.3 转换
- 8.4 你和谁一起工作
- 8.5 底层设计
- 8.6 总结
- 8.7 补充资料
- 第9章 为分析、机器学习和反向ETL提供数据服务
- 9.1 提供数据服务的常见关注点
- 9.2 分析
- 9.3 机器学习
- 9.4 数据工程师需要理解的机器学习知识
- 9.5 为分析和机器学习提供数据服务的方法
- 9.6 反向ETL
- 9.7 你和谁一起工作
- 9.8 底层设计
- 9.9 总结
- 9.10 补充资料
- 第三部分 安全、隐私和数据工程的未来
- 第10章 安全和隐私
- 10.1 人员
- 10.2 流程
- 10.3 技术
- 10.4 总结
- 10.5 补充资料
- 第11章 数据工程的未来
- 11.1 常青的数据工程生命周期
- 11.2 复杂性的下降和易用的数据工具的兴起
- 11.3 云数据操作系统及其高互通性
- 11.4 “企业级”数据工程
- 11.5 数据工程师的头衔和职责将发生的变化
- 11.6 超越现代数据栈,迈向实时数据栈
- 11.7 总结
- 附录A 序列化和压缩技术的细节
- 附录B 云网络
书名:数据工程之道:设计和构建健壮的数据系统
译者:王梦蛟, 阳沁珂, 李佳宁, 李卓恒 译
国内出版社:机械工业出版社
出版时间:2024年03月
页数:357
书号:978-7-111-74527-3
原版书书名:Fundamentals of Data Engineering
原版书出版商:O'Reilly Media
Joe Reis
Joe Reis是一名“恢复中的数据科学家”,也是一名数据工程师和架构师。
Matt Housley
Matt Housley是一名数据工程顾问和云专家。