云数据湖:构建健壮的云数据架构
Rukmani Gopalan
张燕妮 译
出版时间:2024年09月
页数:201
“这本书提供了支持云中数据工作负载所需的基本知识。”
——Prasanna Sundararajan
Microsoft Azure首席软件架构师
“这本书是大数据领域每个人的必读书。”
——Andreilonescu
Adobe高级软件工程师

企业比以往任何时候都更加了解云数据湖架构对于从数据中获取价值的重要性。但是,要构建一个稳健、可扩展、性能卓越的数据湖,仍然是一个复杂的命题,因为这需要大量的工具和选项协同工作,以提供从数据到洞见的无缝端到端管道。
这本实用书籍简明而全面地概述了云数据湖的设置、管理和治理。作者Rukmani Gopalan是一位产品管理领导者和数据爱好者,他指导数据架构师和工程师了解云数据湖工作的主要方面——从设计考虑因素和最佳实践到数据格式优化、性能优化、成本管理和治理。
通过阅读本书,你将:
● 了解基于云的大数据战略对企业的益处。
● 获得设计高性能、可扩展数据湖的指导和最佳实践。
● 研究架构和设计选择以及数据管理原则和策略。
● 构建可随着组织和业务需求的增加而扩展的数据战略。
● 在云中实施可扩展的数据湖。
● 使用基于云的高级分析,从数据中获取更多价值。
  1. 前言
  2. 第1章 大数据—超越喧嚣
  3. 1.1 什么是大数据
  4. 1.2 弹性数据基础设施的挑战
  5. 1.3 云计算基础
  6. 1.3.1 云计算术语
  7. 1.3.2 云的价值主张
  8. 1.4 云数据湖架构
  9. 1.4.1 本地数据仓库解决方案的限制
  10. 1.4.2 什么是云数据湖架构
  11. 1.4.3 云数据湖架构的优势
  12. 1.5 开启云数据湖之旅
  13. 1.6 总结
  14. 第2章 云上的大数据架构
  15. 2.1 为什么Klodars公司要迁移到云
  16. 2.2 云数据湖架构基础
  17. 2.2.1 浅谈数据的多样性
  18. 2.2.2 云数据湖存储
  19. 2.2.3 大数据分析引擎
  20. 2.2.4 云数据仓库
  21. 2.3 现代数据仓库架构
  22. 2.3.1 参考架构
  23. 2.3.2 现代数据仓库架构的用例
  24. 2.3.3 现代数据仓库架构的优势和挑战
  25. 2.4 数据湖仓一体架构
  26. 2.4.1 参考架构
  27. 2.4.2 数据湖仓一体架构的用例
  28. 2.4.3 数据湖仓一体架构的优势和挑战
  29. 2.4.4 数据仓库和非结构化数据
  30. 2.5 数据网格
  31. 2.5.1 参考架构
  32. 2.5.2 数据网格架构的用例
  33. 2.5.3 数据网格架构的优势和挑战
  34. 2.6 什么是适合的架构
  35. 2.6.1 了解客户
  36. 2.6.2 了解业务驱动因素
  37. 2.6.3 考虑增长和未来场景
  38. 2.6.4 设计注意事项
  39. 2.6.5 混合方法
  40. 2.7 总结
  41. 第3章 数据湖的设计注意事项
  42. 3.1 设置云数据湖基础设施
  43. 3.1.1 确定目标
  44. 3.1.2 规划架构和可交付成果
  45. 3.1.3 云数据湖实施
  46. 3.1.4 发布和运行
  47. 3.2 在数据湖中组织数据
  48. 3.2.1 数据生命中的一天
  49. 3.2.2 数据湖区
  50. 3.2.3 组织机制
  51. 3.3 数据治理简介
  52. 3.3.1 数据治理的参与者
  53. 3.3.2 数据分类
  54. 3.3.3 元数据管理、数据目录和数据共享
  55. 3.3.4 数据访问管理
  56. 3.3.5 数据质量和可观测性
  57. 3.3.6 Klodars公司的数据治理
  58. 3.3.7 数据治理总结
  59. 3.4 管理数据湖成本
  60. 3.4.1 揭秘云上的数据湖成本
  61. 3.4.2 数据湖成本策略
  62. 3.5 总结
  63. 第4章 可扩展的数据湖
  64. 4.1 可扩展性探秘
  65. 4.1.1 什么是可扩展性
  66. 4.1.2 日常生活中的规模
  67. 4.1.3 数据湖架构中的可扩展性
  68. 4.2 数据湖处理系统的内部
  69. 4.2.1 内部数据复制
  70. 4.2.2 内部ELT/ETL处理
  71. 4.2.3 关于其他交互式查询的说明
  72. 4.3 可扩展数据湖解决方案的注意事项
  73. 4.3.1 选择合适的云产品
  74. 4.3.2 峰值容量规划
  75. 4.3.3 数据格式和作业配置文件
  76. 4.4 总结
  77. 第5章 优化云数据湖架构以提高性能
  78. 5.1 度量性能的基础知识
  79. 5.1.1 性能的目标和指标
  80. 5.1.2 度量性能
  81. 5.1.3 优化以提高性能
  82. 5.2 云数据湖性能
  83. 5.2.1 SLA、SLO和SLI
  84. 5.2.2 示例:Klodars公司如何管理其SLA、SLO和SLI
  85. 5.3 性能驱动因素
  86. 5.3.1 复制作业的性能驱动因素
  87. 5.3.2 Spark作业的性能驱动因素
  88. 5.4 性能调优的优化原则和技术
  89. 5.4.1 数据格式
  90. 5.4.2 数据组织和分区
  91. 5.4.3 在Apache Spark上选择正确的配置
  92. 5.5 减少数据传输开销
  93. 5.6 优质产品和性能
  94. 5.6.1 大型虚拟机案例
  95. 5.6.2 闪存案例
  96. 5.7 总结
  97. 第6章 深入了解数据格式
  98. 6.1 为什么我们需要这些开放数据格式
  99. 6.1.1 为什么我们需要存储表格数据
  100. 6.1.2 为什么在云数据湖中存储表格数据是一个问题
  101. 6.2 Delta Lake
  102. 6.2.1 为什么开发Delta Lake
  103. 6.2.2 Delta Lake如何工作
  104. 6.2.3 什么时候使用Delta Lake
  105. 6.3 Apache Iceberg
  106. 6.3.1 为什么开发Apache Iceberg
  107. 6.3.2 Apache Iceberg是如何工作的
  108. 6.3.3 什么时候使用Apache Iceberg
  109. 6.4 Apache Hudi
  110. 6.4.1 为什么孵化Apache Hudi
  111. 6.4.2 Apache Hudi如何工作
  112. 6.4.3 什么时候使用Apache Hudi
  113. 6.5 总结
  114. 第7章 架构的决策框架
  115. 7.1 云数据湖评估
  116. 7.2 云数据湖评估分析
  117. 7.2.1 从零开始
  118. 7.2.2 将现有数据湖或数据仓库迁移到云
  119. 7.2.3 改进现有的云数据湖
  120. 7.3 决策框架的第1阶段:评估
  121. 7.3.1 了解客户需求
  122. 7.3.2 了解改进的机会
  123. 7.3.3 了解业务驱动因素
  124. 7.3.4 确定需求的优先级来完成评估阶段
  125. 7.4 决策框架的第2阶段:定义
  126. 7.4.1 确定云数据湖的设计选择
  127. 7.4.2 规划云数据湖项目可交付成果
  128. 7.5 决策框架的第3阶段:实施
  129. 7.6 决策框架的第4阶段:操作
  130. 7.7 总结
  131. 第8章 数据启迪未来的六大经验
  132. 8.1 第1课:关注云数据湖的工作方式和时间,而不是“如果”和“为什么”
  133. 8.2 第2课:权力越大,责任越大—数据也不例外
  134. 8.3 第3课:客户引领技术,而不是技术引领客户
  135. 8.4 第4课:改变是不可避免的,所以要做好准备
  136. 8.5 第5课:建立同理心,分清轻重缓急
  137. 8.6 第6课:巨大的影响不会在一夜之间发生
  138. 8.7 总结
  139. 附录 云数据湖决策框架模板
书名:云数据湖:构建健壮的云数据架构
作者:Rukmani Gopalan
译者:张燕妮 译
国内出版社:机械工业出版社
出版时间:2024年09月
页数:201
书号:978-7-111-76275-1
原版书书名:The Cloud Data Lake
原版书出版商:O'Reilly Media
Rukmani Gopalan
 
Rukmani Gopalan是一位产品管理领导者,曾在微软和其他初创公司从事数据基础设施和平台方面的工作。她的目标是向数据架构师和数据开发人员传授构建云数据湖平台的各方面知识。她住在华盛顿州的雷德蒙德,喜欢探索太平洋西北地区,交谈时喜欢喝咖啡。
 
 
购买选项
定价:89.00元
书号:978-7-111-76275-1
出版社:机械工业出版社