Google SRE工作手册
Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne 编著
钟诚, 刘征 译
出版时间:2020年09月
页数:524
在2016年,Google的出版的第一本网站可靠性工程(SRE)书籍引起了行业的大范围讨论,当今生产环境服务运营意味这什么?为何可靠性方面的考虑是服务设计的基础?现在,编写上一本SRE畅销书的Google工程师们为我们隆重推出了本书,这是一本充满真实案例的实战参考手册,展示了如何在生产环境中运用SRE的原则和实践。
在这本全新的SRE工作手册中,提供的实践案例不但源于Google的经验,还来自那些经历过SRE旅程的Google公有云的用户。值得注意的是,本书还包括Evernote、The Home Depot、纽约时报和其他公司总结的来之不易的第一手经验。
无论你所在公司规模的大小,都可以深入研究这本工作手册,通过学习尝试完善你们自己的SRE实践。
你将会学到:
● 如何在你无法完全掌控的云环境里运行可靠的服务。
● 在你创建、监控和运行服务的过程中践行服务质量目标。
● 如何将现有运维团队转型为SRE,包括发掘出运营的最大价值。
● 从绿地或者棕地上启动SRE的方法。
  1. 序言Ⅰ
  2. 序言Ⅱ
  3. 前言
  4. 第1章 SRE与DevOps的关系
  5. 关于DevOps的背景情况
  6. 关于SRE的背景情况
  7. 比较与对照
  8. 因地制宜才能倍
  9. 小结
  10. 第Ⅰ部分 基础篇
  11. 第2章 实施SLO
  12. SRE为何需要SLO
  13. 入门
  14. 范例系统分析
  15. 选择合适的时间窗口
  16. 获取利益干系者的认同
  17. SLO目标持续改进
  18. 基于SLO和错误预算的决策
  19. 进阶主题
  20. 小结
  21. 第3章 SLO工程案例研究
  22. Evernote的SLO故事
  23. Home Depot的SLO故事
  24. 小结
  25. 第4章 监控
  26. 监控策略必备特性
  27. 监控数据源
  28. 管理监控系统
  29. 度量指标的意图
  30. 测试告警逻辑
  31. 小结
  32. 第5章 基于SLO的告警
  33. 告警设定考量
  34. 重大事件告警方法
  35. 低流量服务和错误预算告警
  36. 极端的可用性目标
  37. 扩大告警范围
  38. 小结
  39. 第6章 消除琐事
  40. 什么是琐事?
  41. 试题琐事
  42. 琐事分类法
  43. 琐事管理策略
  44. 实例研究
  45. 案例研究1:利用自动化减少数据中心的琐事
  46. 案例研究2:退役文件服务器后端的主目录
  47. 小结
  48. 第7章 简单性
  49. 度量复杂性
  50. 简单性是端到端的,适合由SRE来负责
  51. 回归简单性
  52. 小结
  53. 第Ⅱ部分 实践篇
  54. 第8章 on-call轮值
  55. 回顾第一本SRE书中的“on-call轮值”
  56. Google内外的on-call部署模式案例
  57. 实战的实施细节
  58. 小结
  59. 第9章 事故响应
  60. Google的事故管理
  61. 案例分析
  62. 把最佳实践付诸实施
  63. 小结
  64. 第10章 事后总结:从失败中学习
  65. 案例分析
  66. 糟糕的事后总结
  67. 优秀的事后总结
  68. 组织激励
  69. 工具和模版
  70. 小结
  71. 第11章 管理负载
  72. Google云的负载均衡
  73. 自动缩放
  74. 管理负载的多种策略
  75. 小结
  76. 第12章 介绍非抽象大系统设计
  77. 什么是NALSD?
  78. 为什么“非抽象”?
  79. AdWords示例
  80. 小结
  81. 第13章 数据处理流水线
  82. 流水线应用
  83. 流水线最佳实践
  84. 流水线需求分析和设计
  85. 流水线故障的预防和响应
  86. 案例研究:Spotify
  87. 小结
  88. 第14章 配置设计及最佳实践
  89. 什么是配置
  90. 配置原则
  91. 配置机制
  92. 小结
  93. 第15章 配置规范
  94. 配置带来的琐事
  95. 减少配置带来的琐事
  96. 配置系统的关键属性和陷阱
  97. 集成配置语言
  98. 集成现有应用程序:Kubernetes
  99. 集成定制应用程序(自开发软件)
  100. 有效地运行配置系统
  101. 何时评估配置
  102. 防止滥用配置
  103. 小结
  104. 第16章金丝雀发布
  105. 发布工程原则
  106. 平衡发布速度和可靠性
  107. 什么是金丝雀发布?
  108. 发布工程和金丝雀发布
  109. 用前滚部署还是简单的金丝雀部署
  110. 实施金丝雀
  111. 选择和评估指标
  112. 依赖关系和隔离
  113. 非交互式系统中的金丝雀
  114. 监控数据需求
  115. 相关概念
  116. 小结
  117. 第Ⅲ部分 流程
  118. 第17章 发现运维超负荷并从中恢复
  119. 从正常负荷到超负荷
  120. 案例研究1:团队规模缩小一半后的工作超负荷
  121. 我们决定做什么
  122. 案例研究2:组织和工作负荷发生变化后的感知超负荷
  123. 缓解超负荷的策略
  124. 小结
  125. 第18章 SRE参与模式
  126. 服务的生命周期
  127. 建立关系
  128. 维持有效的持续关系
  129. 在更大的环境里规模化推行SRE
  130. 终止关系
  131. 案例研究1:Ares
  132. 案例研究2:数据分析流水线
  133. 小结
  134. 第19章 SRE:跨越壁垒
  135. 不言而喻的事实
  136. 实践SRE怎样与客户共舞
  137. 小结
  138. 第20章 SRE团队生命周期
  139. 没有SRE的SRE实践
  140. 引入SRE角色
  141. 第一个SRE团队
  142. 打造更多SRE团队
  143. 多团队动作的建议实践
  144. 小结
  145. 第21章 管理SRE的组织变革
  146. SRE拥抱变革
  147. 变革管理概述
  148. 案例研究1:扩展Waze——从见机行事到计划性变革
  149. 案例研究2:在SRE中采用通用工具
  150. 小结
  151. 结论
  152. 附录A SLO示例文档
  153. 附录B 错误预算策略示例
  154. 附录C 事后总结分析结果
  155. 作者介绍
  156. 封面介绍
书名:Google SRE工作手册
译者:钟诚, 刘征 译
国内出版社:中国电力出版社
出版时间:2020年09月
页数:524
书号:9787519845858
原版书书名:The Site Reliability Workbook
原版书出版商:O'Reilly Media
Betsy Beyer
 
Betsy Beyer是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布全球的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前,Betsy是Stanford大学技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在Stanford和Tulane获得学历。
Chris Jones是Google App Engine的一名SRE。Google App Engine是一个PaaS服务,每天处理超过280亿个请求。他的办公室在旧金山,他之前的工作包括Google广告统计、数据仓库,以及用户支持系统的维护。在之前,Chris曾经在学校IT行业任职,同时参与过竞选数据分析,以及一些BSD内核的修改。他有计算机工程、经济学,以及技术政策学的学位。同时他也是一名有执照的职业工程师。
Jennifer Petoff是Google SRE团队的一名项目经理,工作地点在都柏林,爱尔兰。她曾经负责管理大型全球项目,包括:科学研究、工程、人力资源,以及广告等。Jennifer在加入Google之前,曾在化工行业任职八年。她获得了Stanford大学的化学博士与学士学位,同时她还拥有Rochester大学的心理学学位。
Niall Murphy是Google爱尔兰团队广告SRE的负责人。他拥有20年互联网行业经验,目前是INEX(爱尔兰网络互联枢纽)的主席。他曾经写作以及参与写作很多科技文章与书籍,包括O’Reilly出版的IPv6 Network Administration,以及很多RFC。他目前在参与书写爱尔兰互联网发展史。他拥有计算机科学、数学,以及诗歌学的学历(他当时一定是想错了!)。他目前与妻子和两个儿子居住在都柏林。
 
 
Niall Richard Murphy
 
Niall Richard Murphy是Google网站可靠性工程组织里曾经和现任的成员,他们的职责是关注和维护Google的生产系统。
 
 
David K. Rensin
 
David K. Rensin是Google网站可靠性工程组织里曾经和现任的成员,他们的职责是关注和维护Google的生产系统。
 
 
Kent Kawahara
 
Kent Kawahara是Google网站可靠性工程组织里曾经和现任的成员,他们的职责是关注和维护Google的生产系统。
 
 
Stephen Thorne
 
Stephen Thorne是Google网站可靠性工程组织里曾经和现任的成员,他们的职责是关注和维护Google的生产系统。