实时分析实战:构建实时流处理应用和分析系统
Mark Needham
卢健, 王同林, 曹洪伟 译
出版时间:2024年08月
页数:203
“本书为所有想要设计、构建和维护实时分析应用程序的人(包括数据工程师、架构师和技术领导者)提供了结构合理的基础知识。”
——Dunith Dhanushka
Redpanda Data资深开发者布道师

本书带领读者深入探索实时分析系统,包括这些系统的核心功能以及它们所解决的复杂问题。通过阅读本书,数据工程师将获得使用Kafka、Google Pub/Sub和AWS Kinesis等事件处理系统进行数据流实时分析的实践技能。洞察数据的速度越快,就越能迅捷地识别业务动态,并及时做出响应。
本书提供了对实时分析领域的全面概览,并介绍了构建实时应用程序所需的专业知识。书中提供了一系列实践教程,并详细演示了如何融合多种软件产品来打造一个虚拟比萨外卖服务的实时分析应用程序,从而将理论与实践完美结合。
通过阅读本书,你将:
● 了解实时分析系统的常见架构。
● 了解事件处理与实时分析的不同之处。
● 将事件数据从Apache Kafka导入Apache Pinot。
● 使用Debezium和Kafka Streams将事件流与OLTP数据相结合。
● 针对存储在Apache Pinot中的事件数据编写实时查询。
● 构建实时仪表盘和订单跟踪应用程序。
● 了解Uber、Stripe和Just Eat如何使用实时分析技术。
  1. 前言
  2. 第1章 实时分析简介
  3. 1.1 什么是事件流
  4. 1.2 理解流数据
  5. 1.3 什么是实时分析
  6. 1.4 实时分析的优势
  7. 1.4.1 新的收入来源
  8. 1.4.2 及时洞察客户
  9. 1.4.3 降低基础设施成本
  10. 1.4.4 改善整体客户体验
  11. 1.5 实时分析用例
  12. 1.5.1 面向用户的分析
  13. 1.5.2 个性化
  14. 1.5.3 指标
  15. 1.5.4 异常检测和根本原因分析
  16. 1.5.5 可视化
  17. 1.5.6 即时分析
  18. 1.5.7 日志分析/文本搜索
  19. 1.6 对实时分析应用程序进行分类
  20. 1.6.1 面向内部与面向外部
  21. 1.6.2 面向机器与面向人类
  22. 1.7 本章小结
  23. 第2章 实时分析生态系统
  24. 2.1 定义实时分析生态系统
  25. 2.2 经典流处理技术栈
  26. 2.2.1 复杂事件处理
  27. 2.2.2 大数据时代
  28. 2.3 现代流处理技术栈
  29. 2.3.1 事件生成器
  30. 2.3.2 流处理数据平台
  31. 2.3.3 流处理层
  32. 2.3.4 服务层
  33. 2.3.5 前端
  34. 2.4 本章小结
  35. 第3章 介绍AATD:比萨外卖店的实时分析
  36. 3.1 现有架构
  37. 3.2 设置
  38. 3.2.1 MySQL
  39. 3.2.2 Apache Kafka
  40. 3.2.3 ZooKeeper
  41. 3.2.4 订单服务
  42. 3.2.5 启动组件
  43. 3.3 检查数据
  44. 3.4 实时分析的应用
  45. 3.5 本章小结
  46. 第4章 使用Kafka Streams进行查询
  47. 4.1 什么是Kafka Streams
  48. 4.2 什么是Quarkus
  49. 4.3 Quarkus应用程序
  50. 4.3.1 安装Quarkus CLI
  51. 4.3.2 创建Quarkus应用程序
  52. 4.3.3 创建拓扑结构
  53. 4.3.4 查询键值存储
  54. 4.3.5 创建HTTP端点
  55. 4.4 运行应用程序
  56. 4.5 查询HTTP端点
  57. 4.6 Kafka Streams的局限性
  58. 4.7 本章小结
  59. 第5章 服务层—Apache Pinot
  60. 5.1 为什么不能使用其他流处理器
  61. 5.2 为什么不能使用数据仓库
  62. 5.3 什么是Apache Pinot
  63. 5.4 Pinot如何对数据进行建模和存储
  64. 5.4.1 数据模式
  65. 5.4.2 表
  66. 5.5 配置
  67. 5.6 数据摄取
  68. 5.7 Pinot数据浏览器
  69. 5.8 索引
  70. 5.9 更新Web应用程序
  71. 5.10 本章小结
  72. 第6章 构建实时分析仪表盘
  73. 6.1 仪表盘架构
  74. 6.2 什么是Streamlit
  75. 6.3 配置
  76. 6.4 构建仪表盘
  77. 6.5 本章小结
  78. 第7章 通过CDC获取产品变化
  79. 7.1 从业务数据库获取更改信息
  80. 7.2 CDC
  81. 7.2.1 为什么需要CDC9
  82. 7.2.2 什么是CDC
  83. 7.2.3 实施CDC的策略
  84. 7.2.4 基于日志的数据采集
  85. 7.2.5 CDC系统的需求
  86. 7.2.6 Debezium
  87. 7.3 将CDC应用于AATD
  88. 7.3.1 配置
  89. 7.3.2 将Debezium连接到MySQL
  90. 7.3.3 查询商品数据流
  91. 7.3.4 更新产品
  92. 7.4 本章小结
  93. 第8章 使用Kafka Streams连接流
  94. 8.1 使用Kafka Streams丰富订单数据
  95. 8.2 将订单项添加到Pinot
  96. 8.3 更新订单服务信息
  97. 8.4 刷新Streamlit仪表盘
  98. 8.5 本章小结
  99. 第9章 服务层的插入更新
  100. 9.1 订单状态
  101. 9.2 丰富订单流信息
  102. 9.3 Apache Pinot的插入更新
  103. 9.4 更新订单服务
  104. 9.4.1 创建用户资源文件
  105. 9.4.2 添加一个所有用户的端点
  106. 9.4.3 为用户端点添加订单
  107. 9.4.4 添加单个订单端点
  108. 9.4.5 实现跨资源共享
  109. 9.5 前端应用程序
  110. 9.6 仪表盘上的订单状态
  111. 9.6.1 每个订单状态的耗时
  112. 9.6.2 可能被延误的订单
  113. 9.7 本章小结
  114. 第10章 地理空间查询
  115. 10.1 交付状态
  116. 10.2 更新Apache Pinot
  117. 10.2.1 订单
  118. 10.2.2 交付状态
  119. 10.3 更新订单服务
  120. 10.3.1 个人订单
  121. 10.3.2 按地区划分的延迟订单
  122. 10.3.3 使用新的API端点
  123. 10.4 本章小结
  124. 第11章 生产环境中的注意事项
  125. 11.1 前期准备
  126. 11.1.1 容量规划
  127. 11.1.2 数据分区
  128. 11.1.3 吞吐量
  129. 11.1.4 数据保留
  130. 11.1.5 数据粒度
  131. 11.1.6 总数据大小
  132. 11.1.7 复制因子
  133. 11.2 部署平台
  134. 11.2.1 自身技能
  135. 11.2.2 数据隐私和安全
  136. 11.2.3 成本
  137. 11.2.4 控制
  138. 11.3 后期管理
  139. 11.3.1 监控和报警
  140. 11.3.2 数据治理
  141. 11.4 本章小结
  142. 第12章 现实世界中的实时分析
  143. 12.1 内容推荐(专业社交网络)
  144. 12.1.1 问题
  145. 12.1.2 解决方案
  146. 12.1.3 收益
  147. 12.2 运营分析(流媒体服务)
  148. 12.2.1 问题
  149. 12.2.2 解决方案
  150. 12.2.3 收益
  151. 12.3 实时广告分析(网上商城)
  152. 12.3.1 问题
  153. 12.3.2 解决方案
  154. 12.3.3 收益
  155. 12.4 面向用户的分析(协作平台)
  156. 12.4.1 问题
  157. 12.4.2 解决方案
  158. 12.4.3 收益
  159. 12.5 本章小结
  160. 第13章 实时分析的未来
  161. 13.1 边缘分析
  162. 13.2 计算存储分离
  163. 13.3 湖仓一体
  164. 13.4 实时数据可视化
  165. 13.5 流式数据库
  166. 13.6 流数据平台即服务
  167. 13.7 反向ETL
  168. 13.8 本章小结
书名:实时分析实战:构建实时流处理应用和分析系统
作者:Mark Needham
译者:卢健, 王同林, 曹洪伟 译
国内出版社:机械工业出版社
出版时间:2024年08月
页数:203
书号:978-7-111-75980-5
原版书书名:Building Real-Time Analytics Systems
原版书出版商:O'Reilly Media
Mark Needham
 
马克·尼达姆(Mark Needham),Neo4j公司开发者关系工程师,Neo4j认 证专家,曾深度参与Neo4j因果集群的开发工作。马克致力于帮助客户 运用图数据库,善于针对富有挑战性的数据问题构建综合的解决方案。
 
 
购买选项
定价:79.00元
书号:978-7-111-75980-5
出版社:机械工业出版社