SLO与SLI:软件可靠性实践指南
Alex Hidalgo
王浩然, 张晋涛, 覃璐 译
出版时间:2023年12月
页数:317
“SLO和SLI是SRE的核心实践,但它们很棘手。Alex和他的SRE杰出团队在这方面经验丰富,可以提供帮助。”
——David N. Blank-Edelman
Seeking SRE的策展人/编辑
SREcon的联合创始人
“软件可靠性的实际示例很难找到,但本书做到了……这是一本确保你的用户满意和成功的必读书籍。”
——Robert Ross
FireHydrant的CEO
“这本通俗易懂、条理清晰的实用指南,使‘普通’公司能够实现谷歌SRE质量级别的监控。强烈推荐这本书!”
——Thomas A. Limoncelli
Stack Overflow公司的SRE经理

尽管SLO(服务等级目标)的重要性不断增长,但是明显缺乏关于如何实现它们的信息。已有的建议通常假设团队已经具备相关的基础设施、工具和文化。在本书中,公认的SLO专家Alex Hidalgo解释了如何从头开始创建SLO文化。
本书提供了对高级SLO和SLI(服务等级指标)技术的详细分析,对任何想要创建基于SLO的可靠性方法所需的文化和工具的人而言,这是一本理想的入门和日常参考书。本书将帮助你利用数学模型和统计知识,从基于SLO的方法中获得最大的收益。你将学会如何构建能够度量有意义的SLI的系统,并得到组织中所有部门的认可。
通过学习本书,你将能够:
● 定义从用户的角度有意义地度量服务可靠性的SLI。
● 选择合适的SLO,例如进行统计和概率分析。
● 使用错误预算,以便更好地进行团队讨论和做出数据驱动的决策。
● 为基于SLO的方法构建支持性工具和资源。
  1. 前言
  2. 第一部分 SLO开发
  3. 第1章 可靠性栈
  4. 1.1 服务的真理
  5. 1.2 可靠性栈概述
  6. 1.3 什么是服务
  7. 1.4 要记住的事情
  8. 1.5 总结
  9. 第2章 如何看待可靠性
  10. 2.1 可靠性工程
  11. 2.2 过去的性能和你的用户
  12. 2.3 服务应该有多可靠
  13. 2.4 总结
  14. 第3章 制定有意义的SLI
  15. 3.1 有意义的SLI能提供什么
  16. 3.2 很多事情需要关心
  17. 3.3 更复杂的东西
  18. 3.4 总结
  19. 第4章 选择好的SLO
  20. 4.1 可靠性目标
  21. 4.2 服务依赖项和组件
  22. 4.3 你依赖的服务的可靠性
  23. 4.4 选择目标
  24. 4.5 总结
  25. 第5章 如何使用错误预算
  26. 5.1 错误预算实践
  27. 5.2 错误预算的度量
  28. 5.3 总结
  29. 第二部分 SLO实现
  30. 第6章 获得认同
  31. 6.1 工程不只是代码
  32. 6.2 主要利益相关者
  33. 6.3 行动起来
  34. 6.4 惨痛的教训
  35. 6.5 总结
  36. 第7章 度量SLI和SLO
  37. 7.1 设计目标
  38. 7.2 通用结构
  39. 7.3 常见案例
  40. 7.4 一般案例
  41. 7.5 其他注意事项
  42. 7.6 总结
  43. 第8章 SLO监控和告警
  44. 8.1 动机:SLO告警是什么,为什么要这样做
  45. 8.2 如何进行SLO告警
  46. 8.3 剥离建议
  47. 8.4 总结
  48. 第9章 用于SLI和SLO的概率论与统计学
  49. 9.1 概率论
  50. 9.2 统计学
  51. 9.3 SLI示例:持久性
  52. 9.4 延伸阅读
  53. 9.5 总结
  54. 第10章 可靠性架构
  55. 10.1 示例系统:图像服务
  56. 10.2 架构考虑:重新审视硬件
  57. 10.3 SLO作为系统SLI的结果
  58. 10.4 识别和理解依赖项的重要性
  59. 10.5 总结
  60. 第11章 数据可靠性
  61. 11.1 数据服务
  62. 11.2数据服务的用户
  63. 11.3 设定可度量的数据目标
  64. 11.4 系统设计关注点
  65. 11.5 数据沿袭
  66. 11.6 总结
  67. 第12章 有效案例
  68. 12.1 给小狗穿衣服
  69. 12.2 将SLI和SLO作为用户旅程
  70. 12.3 总结
  71. 第三部分 SLO文化
  72. 第13章 打造SLO文化
  73. 13.1 没有SLO的文化
  74. 13.2 文化转变策略
  75. 13.3 通往SLO文化的路径
  76. 13.4 总结
  77. 第14章 SLO演进
  78. 14.1 SLO起始
  79. 14.2 使用方式的变化
  80. 14.3 依赖项的变化
  81. 14.4 故障引起的变化
  82. 14.5 用户期望和需求的变化
  83. 14.6 工具的变化
  84. 14.7 基于直觉的变化
  85. 14.8 制定理想的SLO
  86. 14.9 识别不正确的SLO
  87. 14.10 如何改变SLO
  88. 14.11 总结
  89. 第15章 可发现和可理解的SLO
  90. 15.1 可理解性
  91. 15.2 可发现性
  92. 15.3 总结
  93. 第16章 SLO倡导
  94. 16.1 起步阶段
  95. 16.2 推广阶段
  96. 16.3 扩张阶段
  97. 16.4 总结
  98. 第17章 可靠性报告
  99. 17.1 基本报告
  100. 17.2 高级报告
  101. 17.3 总结
  102. 附录A SLO定义模板
  103. 附录B 第9章的证明
书名:SLO与SLI:软件可靠性实践指南
作者:Alex Hidalgo
译者:王浩然, 张晋涛, 覃璐 译
国内出版社:机械工业出版社
出版时间:2023年12月
页数:317
书号:978-7-111-73892-3
原版书书名:Implementing Service Level Objectives
原版书出版商:O'Reilly Media
Alex Hidalgo
 
Alex Hidalgo是一名站点可靠性工程师,也是SLO相关领域的专家。在Google工作期间,Alex在SRE(站点可靠性工程)方面表现出色,之后他加入了Squarespace,致力于在公司内部和整个行业推广基于SLO的服务可靠性方法的理念。
 
 
本书封面上的动物是一种被称为西班牙水犬的狗。
西班牙水犬是一种被培育用于放牧和找回鸭子与其他水禽的犬种。它们是出色的家庭犬和看门狗,聪明并且精力充沛。中等体型,卷毛,一般是黑色、棕色或米色和白色。
这个犬种的祖先来自西班牙最北部和最南部地区。来自阿斯图里亚斯、坎塔布里亚和安达卢西亚地区的狗为如今的西班牙水犬贡献了不同的品质(如体型、毛发和颜色)。
O'Reilly封面上的许多动物都处于濒危状态,它们对这个世界都非常重要。
购买选项
定价:139.00元
书号:978-7-111-73892-3
出版社:机械工业出版社