数据质量管理:数据可靠性与数据质量问题解决之道
Barr Moses, Lior Gavish, Molly Vorwerck
李晗玥, 陈天皓, 步凡 译
出版时间:2024年05月
“任何关心数据质量的人都必须阅读这本书。”
——Debashis Saha AppZen、Intuit和eBay的数据主管

你的产品仪表盘看起来时髦吗?你的季度报告过时了吗?你使用的数据集是坏的还是根本就是错误的?这些问题几乎影响每一个团队,但它们通常以一种临时的、被动的方式得到解决。如果你也受困于这些问题,那么本书就是为你准备的。
如今,许多数据工程团队都面临着“好管道,坏数据”的问题。如果你的数据不好,那么数据基础设施再先进也没用。在本书中,来自数据可观测性公司蒙特卡罗的Barr Moses、Lior Gavish和Molly Vorwerck解释了如何利用世界上一些最具创新性的公司采用的最佳实践和技术来解决大规模数据质量和信任问题。
通过阅读本书,你将:
● 构建更可信、更可靠的数据管道。
● 编写脚本进行数据检查,并通过数据可观测性识别损坏的管道。
● 了解如何设置和维护数据SLA、SLI和SLO。
● 制定并领导公司的数据质量计划。
● 了解如何像对待生产软件一样对待数据服务和系统。
● 跨数据生态系统自动绘制数据沿袭图。
● 为关键数据资产构建异常检测器。
  1. 前言
  2. 第1章 为什么数据质量值得关注
  3. 1.1 什么是数据质量
  4. 1.2 构筑当下
  5. 1.2.1 了解“数据宕机的增加”
  6. 1.2.2 促成当前形势的其他行业趋势
  7. 1.3 总结
  8. 第2章 对可靠数据系统的构建模块进行组装
  9. 2.1 了解事务型数据和分析型数据之间的差异
  10. 2.2 是什么让它们有所不同
  11. 2.3 数据仓库与数据湖
  12. 2.3.1 数据仓库:模式级别的表类型
  13. 2.3.2 数据湖:文件级别的操作
  14. 2.3.3 什么是湖仓一体
  15. 2.3.4 在仓库和湖之间同步数据
  16. 2.4 收集数据质量指标
  17. 2.4.1 什么是数据质量指标
  18. 2.4.2 如何提取数据质量指标
  19. 2.4.3 使用查询日志了解数据仓库中的数据质量
  20. 2.4.4 使用查询日志了解数据湖中的数据质量
  21. 2.5 设计数据目录
  22. 2.6 构建数据目录
  23. 2.7 总结
  24. 第3章 收集、清洗、转换和测试数据
  25. 3.1 收集数据
  26. 3.1.1 应用程序日志数据
  27. 3.1.2 API响应
  28. 3.1.3 传感器数据
  29. 3.2 清洗数据
  30. 3.3 批处理与流处理
  31. 3.4 流处理的数据质量
  32. 3.5 数据标准化
  33. 3.5.1 处理异构数据源
  34. 3.5.2 模式检查和类型强制转换
  35. 3.5.3 数据中的句法歧义与语义歧义
  36. 3.5.4 管理AWS Kinesis和Apache Kafka之间的事务型数据转换
  37. 3.6 运行分析型数据转换
  38. 3.6.1 确保ETL期间的数据质量
  39. 3.6.2 确保转换期间的数据质量
  40. 3.7 警报和测试
  41. 3.7.1 dbt单元测试
  42. 3.7.2 Great Expectations单元测试
  43. 3.7.3 Deequ单元测试
  44. 3.8 使用 Apache Airflow管理数据质量
  45. 3.8.1 调度程序的SLA61
  46. 3.8.2 在Apache Airflow中安装断路器
  47. 3.8.3 SQL检查运算符
  48. 3.9 总结
  49. 第4章 数据管道的监控和异常检测
  50. 4.1 了解已知的未知和未知的未知
  51. 4.2 构建异常检测的算法
  52. 4.2.1 新鲜度监控
  53. 4.2.2 了解分布
  54. 4.3 为模式和沿袭构建监控器
  55. 4.3.1 模式变更和沿袭的异常检测
  56. 4.3.2 对沿袭进行可视化
  57. 4.3.3 调查数据异常
  58. 4.4 使用Python和机器学习扩展异常检测
  59. 4.4.1 利用机器学习改进数据监控警报
  60. 4.4.2 假阳性和假阴性的解释
  61. 4.4.3 提高精确率和召回率
  62. 4.4.4 通过数据监控检测新鲜度事件
  63. 4.4.5 F分数
  64. 4.4.6 模型的准确率重要吗
  65. 4.5 深入探究:其他有用的异常检测方法
  66. 4.6 为数据仓库和数据湖分别设计数据质量监控器
  67. 4.7 总结
  68. 第5章 为数据可靠性进行架构设计
  69. 5.1 在摄取数据时评估并维护高数据可靠性
  70. 5.2 度量和维护管道中的数据质量
  71. 5.3 了解下游的数据质量
  72. 5.4 构建数据平台
  73. 5.4.1 数据摄取
  74. 5.4.2 数据存储和处理
  75. 5.4.3 数据转换和建模
  76. 5.4.4 商业智能和分析
  77. 5.4.5 数据发现和治理
  78. 5.5 建立对数据的信任
  79. 5.5.1 数据可观测性
  80. 5.5.2 评估数据质量的投资回报率
  81. 5.5.3 如何为数据设置SLA、SLO和SLI
  82. 5.6 案例分析:Blinkist
  83. 5.7 总结
  84. 第6章 解决大规模数据质量问题
  85. 6.1 在软件研发过程中解决数据质量问题
  86. 6.2 数据事件管理
  87. 6.2.1 事件检测
  88. 6.2.2 响应
  89. 6.2.3 根因分析
  90. 6.2.4 解决
  91. 6.2.5 不做指责的复盘
  92. 6.3 事件应对与缓解策略
  93. 6.3.1 建立事件管理的标准程序
  94. 6.3.2 为什么数据事件指挥官如此重要
  95. 6.4 案例分析:PagerDuty公司的数据事件管理
  96. 6.4.1 PagerDuty的数据运营概况
  97. 6.4.2 PagerDuty的数据挑战
  98. 6.4.3 使用DevOps的最佳实践来规模化数据事件管理
  99. 6.5 总结
  100. 第7章 构建端到端的数据沿袭
  101. 7.1 为现代数据系统构建端到端字段级别的沿袭
  102. 7.1.1 数据沿袭的基本要求
  103. 7.1.2 数据沿袭的设计
  104. 7.1.3 解析数据
  105. 7.1.4 构建用户界面
  106. 7.2 案例分析:在福克斯公司构建数据可靠性
  107. 7.2.1 在与利益相关方打交道时,运用“可控自由”原则
  108. 7.2.2 投资于去中心化数据团队
  109. 7.2.3 避免追逐闪亮的新科技,而应该选择解决问题的技术
  110. 7.2.4 为实现自助式分析,要致力于建立数据信任
  111. 7.3 总结
  112. 第8章 推广和普及数据质量
  113. 8.1 将“数据”视为产品
  114. 8.2 将数据视为产品的经验
  115. 8.2.1 Convoy案例分析:数据即服务或输出
  116. 8.2.2 Uber案例分析:数据产品经理的崛起
  117. 8.2.3 采用“数据即产品”的方法
  118. 8.3 在数据平台中建立信任
  119. 8.3.1 确保产品目标与业务目标保持一致
  120. 8.3.2 寻求适合的利益相关方的反馈与认可
  121. 8.3.3 优先考虑长期增长和可持续性,而非短期收益
  122. 8.3.4 为数据及其评估标准设定基准指标
  123. 8.3.5 了解何时构建、何时购买
  124. 8.4 分配数据质量所有权
  125. 8.4.1 首席数据官
  126. 8.4.2 商业智能分析师
  127. 8.4.3 分析工程师
  128. 8.4.4 数据科学家
  129. 8.4.5 数据治理主管
  130. 8.4.6 数据工程师
  131. 8.4.7 数据产品经理
  132. 8.4.8 谁来负责数据可靠性
  133. 8.5 为数据质量创建责任制
  134. 8.6 平衡数据可访问性与数据信任
  135. 8.7 对数据进行认证
  136. 8.8 实施数据认证流程的七个步骤
  137. 8.9 案例分析:Toast寻找适合其数据团队结构的过程
  138. 8.9.1 起初:一个艰难满足数据需求的小团队
  139. 8.9.2 以分散式数据运营支持超级增长
  140. 8.9.3 重组、再集中化并重新聚焦于数据信任
  141. 8.9.4 在扩张数据团队时需要考虑的因素
  142. 8.10 提高数据素养
  143. 8.11 优先考虑数据治理和合规性
  144. 8.11.1 优先考虑数据目录
  145. 8.11.2 数据目录之外:实施数据治理
  146. 8.12 构建数据质量策略
  147. 8.12.1 让领导层对数据质量最终负责
  148. 8.12.2 设定数据质量的KPI
  149. 8.12.3 带头实施数据治理计划
  150. 8.12.4 自动化数据沿袭与数据治理工具
  151. 8.12.5 创建沟通计划
  152. 8.13 总结
  153. 第9章 现实世界中的数据质量:对话和案例分析
  154. 9.1 为更高的数据质量构建数据网格
  155. 9.1.1 面向领域的数据所有者和数据管道
  156. 9.1.2 自助式服务功能
  157. 9.1.3 互操作性与通信标准化
  158. 9.2 为什么要实施数据网格
  159. 9.2.1 选不选网格
  160. 9.2.2 计算你的数据网格分数
  161. 9.3 与 Zhamak Dehghani的对话:数据质量在数据网格中的作用
  162. 9.3.1 你可以从单一解决方案构建数据网格吗
  163. 9.3.2 数据网格是数据虚拟化的另一种表达吗
  164. 9.3.3 每个数据产品团队是否管理自己独立的数据存储
  165. 9.3.4 自助式数据平台与分散式数据网格是一回事吗
  166. 9.3.5 数据网格适用于所有的数据团队吗
  167. 9.3.6 团队中的某个人会“拥有”数据网格吗
  168. 9.3.7 数据网格是否会引起数据工程师和数据分析师之间的摩擦
  169. 9.4 案例分析:Kolibri Games的数据栈之旅
  170. 9.4.1 最初的数据需求
  171. 9.4.2 追求绩效营销
  172. 9.4.3 2018年:专业化和集中化
  173. 9.4.4 开始以数据为导向
  174. 9.4.5 开始数据驱动
  175. 9.4.6 构建数据网格
  176. 9.4.7 五年数据演变的五个关键思考
  177. 9.5 让元数据为业务服务
  178. 9.6 通过数据发现释放元数据的价值
  179. 9.6.1 数据仓库和数据湖的考量
  180. 9.6.2 数据目录可能淹没在数据湖甚至数据网格中
  181. 9.6.3 从传统的数据目录过渡到现代的数据发现
  182. 9.7 决定何时开始处理公司的数据质量问题
  183. 9.7.1 在最近迁移到云端
  184. 9.7.2 数据栈随着更多的数据源、更多的表和更高的复杂性而扩展
  185. 9.7.3 你的数据团队正在扩充
  186. 9.7.4 你的团队至少花费了30%的时间来解决数据质量问题
  187. 9.7.5 你的团队拥有比一年前更多的数据消费者
  188. 9.7.6 你的公司正在转向自助式服务分析模型
  189. 9.7.7 数据是客户价值主张的关键部分
  190. 9.7.8 数据质量源于信任
  191. 9.8 总结
  192. 第10章 开创可靠数据系统的未来
  193. 10.1 要积极主动,而不是消极被动
  194. 10.2 对数据质量和数据可靠性未来的预测
  195. 10.2.1 数据仓库和数据湖将融为一体
  196. 10.2.2 数据团队中的新角色
  197. 10.2.3 自动化的兴起
  198. 10.2.4 更多的分布式环境与数据领域的兴起
  199. 10.3 何去何从
书名:数据质量管理:数据可靠性与数据质量问题解决之道
译者:李晗玥, 陈天皓, 步凡 译
国内出版社:机械工业出版社
出版时间:2024年05月
书号:978-7-111-75411-4
原版书书名:Data Quality Fundamentals
原版书出版商:O'Reilly Media
Barr Moses
 
Barr Moses是蒙特卡罗公司的首席执行官兼联合创始人,该公司是数据可观测性类别的创建者。在长达十年的数据职业生涯中,她曾担任以色列空军数据情报部队指挥官、贝恩公司顾问和Gainsight公司运营副总裁。她主持了O'Reilly的第一门数据质量课程。
 
 
Lior Gavish
 
Lior Gavish是蒙特卡罗公司的首席技术官兼联合创始人,曾联合创办网络安全初创公司Sookasa,该公司于2016年被Barracuda公司收购。在Barracuda,他曾担任高级工程副总裁,推出了屡获殊荣的ML防欺诈产品。Lior拥有斯坦福大学工商管理硕士学位和特拉维夫大学计算机科学硕士学位。
 
 
Molly Vorwerck
 
Molly Vorwerck是蒙特卡罗公司的内容主管,还担任过Uber工程博客的主编和Uber技术品牌团队的首席项目经理。她还负责Uber首席技术官的内部沟通,以及Uber人工智能实验室研究审查项目的战略。
 
 
购买选项
定价:109.00元
书号:978-7-111-75411-4
出版社:机械工业出版社