SRE运维之道
David N. Blank-Edelman 编著
胡志飞, 蒋永清 译
出版时间:2021年04月
页数:536
大大小小的企业和机构已经开始意识到系统和应用程序的可靠性对他们的业务的重要性。他们还发现,以市场需求的速度进行迭代的同时还要保持可靠性有多么困难。站点可靠性工程(SRE)是应对这一挑战的行之有效的方法。
SRE是一个广泛而丰富的讨论话题。Google凭借《Site Reliability Engineering》一书推动着SRE向前发展。这是一本非常成功的O’Reilly图书,它描述了能让Google成功运维超大规模平台的SRE指导思想和实施细节。受Google早期工作的启发,本书试图发掘SRE领域非常不同的部分。本书用30多章的篇幅带你进入SRE领域正在进行的一些重要对话。
聆听工程师和该领域的其他领导人讨论:
● 在各种环境中实现SRE及其指导思想的不同方法。
● SRE与其他方法(例如DevOps)的关系。
● 最前沿的专业技术很快将在SRE中十分常见。
● 简化实现SRE的最佳实践和技术。
● 重要但很少有人探索的SRE人性的一面。
  1. 绪论
  2. 第一部分 SRE实施
  3. 第1章 SRE中的上下文与控制
  4. 第2章 面试站点可靠性工程师
  5. 面试101
  6. SRE漏斗
  7. 面试SRE的最终思考
  8. 延伸阅读
  9. 第3章 你想建立一个SRE团队吗?
  10. 出于正确的原因选择SRE
  11. 面向数据驱动方法
  12. 对SRE的承诺
  13. 做出关于SRE的决定
  14. 第4章 使用事件指标在规模上
  15. 提高SRE
  16. 救援到良性循环:你需要测量……
  17. 指标回顾:如果指标无法找到……
  18. 代理指标
  19. 修复债务
  20. 虚拟修复债务:在机器中驱除幽灵
  21. 实时仪表板:SRE的面包和黄油
  22. 学习:终身学习
  23. 延伸阅读
  24. 第5章 与第三方合作的艺术
  25. 自建、购买或采用?
  26. 第三方作为“一等公民”
  27. 总结想法
  28. 第6章 如何在没有专用SRE团队的情况下应用SRE
  29. 原则
  30. 向SRE求救(以及他们如何失败)
  31. 你建造它,你就得运行它
  32. 一些实施详细信息
  33. 小结
  34. 延伸阅读
  35. 第7章 无SRE的SRE模式:Spotify案例研究
  36. 蹒跚学步:2006–2007
  37. 测试版和正式发布:2008–2009
  38. 成功的诅咒:2010
  39. 宠物和动物,以及敏捷:2011
  40. 无法扩展的系统:2012
  41. 介绍小组内嵌运维:2013–2015
  42. 自主性与一致性的权衡:2015–2017
  43. 未来:规模化的速度和安全
  44. 第8章 大型企业SRE的介绍
  45. 背景
  46. 介绍SRE
  47. 总结反思
  48. 延伸阅读
  49. 第9章 从系统管理员到SRE
  50. 澄清术语
  51. 为内部组件建立SLA
  52. 了解外部依赖关系
  53. 非技术解决方案
  54. 跟踪可用性级别
  55. 处理罕见情况
  56. 小结
  57. 第10章 为企业中的SRE扫清道路
  58. 琐事,SRE的敌人
  59. 企业中的琐事
  60. 孤岛、队列和工单
  61. 立即行动
  62. 从精益开始
  63. 尽可能多地摆脱交接
  64. 将剩余的移交替换为自助服务
  65. 错误预算、限制琐事和其他增强人类能力的工具
  66. 加入运动
  67. 第11章 SRE模式深受DevOps的热爱
  68. 模式1:Google诞生的自动测试
  69. 模式2:在谷歌启动和移交准备审查
  70. 模式3:创建共享源代码存储库
  71. 小结
  72. 进一步阅读和源材料
  73. 第12章 DevOps和SRE:来自社区的声音
  74. 背景
  75. 方法
  76. 结果
  77. 回复
  78. 第13章 Facebook的生产工程师
  79. 第二部分 SRE前沿领域
  80. 第14章 起初,有混沌
  81. 系统问题
  82. 复杂性的经济支柱
  83. 开始混沌
  84. 安全和复杂性的权衡
  85. 混沌变大
  86. 形式化
  87. 高级原则
  88. 常见问题
  89. 小结
  90. 第15章 可靠性与隐私的交集
  91. 可靠性与隐私的交集概述
  92. 隐私工程的一般景观
  93. 隐私和SRE:常见方法
  94. 细微差别、差异和权衡
  95. 小结
  96. 延伸阅读
  97. 第16章 数据库可靠性工程
  98. 数据库可靠性工程师的指导原则
  99. 数据库可靠性工程文化
  100. 可恢复性
  101. 持续交付:从开发到生产
  102. 协作
  103. 部署
  104. 为DBRE提供支持
  105. 延伸阅读
  106. 第17章 数据耐久性工程
  107. 复制是基础
  108. 真实世界的耐久性
  109. 保护
  110. 验证
  111. 自动化
  112. 小结
  113. 第18章 SRE机器学习概述
  114. 为什么要使用机器学习辅助SRE工作?
  115. 为什么我的公司应该如何参与这项工作?
  116. AI应用方面的觉醒
  117. 什么是机器学习?
  118. 什么是神经网络?
  119. 实用机器学习
  120. 成功案例
  121. 延伸阅读
  122. 第三部分 SRE最佳实践和技术
  123. 第19章 使文档更好:将文档集成到工作流程中
  124. 定义质量:好文档是什么样子的?
  125. 将文档集成到工程的工作流中
  126. 更好的文档:最佳实践
  127. 传达文档的价值
  128. 延伸阅读
  129. 第20章 主动教学和自学
  130. 主动学习
  131. 不能学习的代价
  132. 有效SRE 团队的学习氛围
  133. 行动号召:放弃无聊的幻灯片
  134. 第21章 服务级别目标的艺术与科学
  135. 为什么要设定目标?
  136. 可用性
  137. 关于评估SLO
  138. 直方图
  139. 百分位数的不足之处(和直方图的优点)
  140. 思路的不同:自底向上的分析SLO
  141. 延伸阅读
  142. 第22章 SRE作为一种成功文化
  143. SRE是从哪里来的?
  144. SRE的关键价值
  145. SRE的关键启用功能
  146. SRE执行阶段
  147. 关注成功的细节
  148. 延伸阅读
  149. 第23章 SRE反模式
  150. 反模式1:站点可靠性运维
  151. 反模式2:人类盯着屏幕
  152. 反模式3:事件响应时一窝蜂
  153. 反模式4:根本原因 = 人为错误
  154. 反模式5:丢包袱
  155. 反模式6:马戏团表演模式!
  156. 反模式7:警报可靠性工程
  157. 反模式8:雇用他人来遛狗
  158. 反模式9:减速带工程
  159. 反模式10:设计阻塞点
  160. 反模式11:批评太多,鼓励不够
  161. 反模式12:推迟生产环境发布
  162. 反模式13:优先避免故障而不追求快速恢复(MTTF > MTTR)
  163. 反模式14:依赖性地狱
  164. 反模式15:笨拙的治理
  165. 反模式16: 考虑不周的SLO
  166. 反模式17:让人恼火的API接口
  167. 反模式18:修复运维团队
  168. 那么,这就足够了吗?
  169. 第24章 不变的基础架构和SRE
  170. 可扩展性、可靠性和性能
  171. 故障恢复
  172. 更简单的运维
  173. 更快的启动时间
  174. 已知状态
  175. 自信地完成持续集成/持续部署
  176. 安全性
  177. 多区域操作
  178. 发布的工程学
  179. 构建基本镜像
  180. 部署应用程序
  181. 缺点
  182. 小结
  183. 第25章 可编写脚本的负载均衡器
  184. 可编写脚本的负载均衡器:新新人类
  185. 使困难变得简单
  186. 服务级别中间件
  187. 避免灾难
  188. 展望未来,进一步阅读
  189. 第26章 服务网格化:微服务的牧人?
  190. 准备好摆脱全家桶了吗?
  191. 微服务网络的当前状态
  192. 服务网格来救援
  193. 实践中的服务网格
  194. 服务网格的未来
  195. 延伸阅读
  196. 第四部分 SRE的人性化一面
  197. 第27章 SRE的心理安全
  198. 成功团队的主要指标
  199. 延伸阅读
  200. 第28章 SRE认知工作
  201. 简介
  202. SRE人员是做什么的?
  203. 我们为什么要关心从业者认知?
  204. 关于围绕事件的SRE认知工作的观察
  205. 知识校准问题
  206. 这一切意味着什么?
  207. 接下来会发生什么?
  208. 你能做什么?
  209. 小结
  210. 参考
  211. 第29章 胜过倦怠
  212. 定义精神障碍
  213. 多元化对话中缺少对精神障碍的照顾
  214. 纯洁不是业务需求
  215. 光是思想和祈祷还不够
  216. 全栈包容性
  217. 人人为我,我为人人
  218. 精神障碍资源
  219. 第30章 反对轮值:一次论战
  220. 轮值的理由
  221. 轮值给我们带来的麻烦
  222. 实际解决方案
  223. 我们需要从根本上改变方法
  224. 小结
  225. 第31章 复杂系统的挽歌
  226. 计算机和人类系统无法分离
  227. 消除一致性和级联失败
  228. 始终处于部分故障状态
  229. 优先级倒置的新尝试
  230. 没有人预见到协调的代价
  231. 你的healthcare.gov在那里
  232. 延伸阅读
  233. 第32章 运维与社会活动之间的交集
  234. 之前、期间、之后
  235. 长尾效应:将行动转化为革新
  236. 小结
  237. 第33章 结语
书名:SRE运维之道
作者:David N. Blank-Edelman 编著
译者:胡志飞, 蒋永清 译
国内出版社:中国电力出版社
出版时间:2021年04月
页数:536
书号:978-7-5198-4845-3
原版书书名:Seeking SRE
原版书出版商:O'Reilly Media
David N. Blank-Edelman
 
David N. Blank-Edelman在大型多平台环境中的SRE、DevOps、系统管理领域拥有超过30年的经验。他目前就职于Microsoft,是高级云平台运维布道师,专注于站点可靠性工程。他是USENIX在全球举办的广受 欢迎的SREcon会议的联合创始人之一,同时还是O’ Reilly水獭书 (《Automating Systems Administration with Perl》)的作者
David N. Blank-Edelman 是美国东北大学计算机和信息科学学院的技术总监。他在大型跨平台的系统/网络管理方面有二十五年的经验,其中包括在布兰迪斯大学、剑桥技术集团以及麻省理工学院媒体实验室的历练。他还是 Large Installation System Administration(LISA)大会 2005 年的主席,也是 2006 年的特约演讲者和联合主席。
 
 
本书封面上的动物是东部小竹狐猴(学名:Hapalemurgriseus),也称为灰竹狐猴或灰柔和的狐猴。它原产于马达加斯加岛。狐猴在某种程度上类似灵长类动物,但在马达加斯加脱离非洲大陆后便独立于猴子和猿猴而进化。这发生在约58至6300万年前。
东部的小狐猴的皮毛呈灰色,平均长约11英寸(除了尾巴长12~15英寸外)。它的饮食主要由竹笋组成(75%~90%),并辅以水果,花朵和其他植物。狐猴具有非常敏锐的手眼协调能力和敏捷性,并且在茂密的竹林中,能从一个枝头跳到另一个枝头。
竹狐猴在野外使用多种发声方法,包括对空中捕食者,地面捕食者,交配准备和识别的独特呼吁。它们生活在6~9只的小团体中,通常由一名雄性,育种的雌性和后代组成。雌性通常每年养育一个后代,并在四个月后断奶。尽管它们确实会在嘴里或背上运送婴儿,但母竹狐猴在离开觅食时更经常将幼崽藏在竹架中。
一些狐猴种群实际上可能会从森林砍伐中受益,因为竹子在开垦土地上繁衍生息。但是,这种物种受到过度捕猎的威胁,尤其是宠物贸易的影响。
购买选项
定价:128.00元
书号:978-7-5198-4845-3
出版社:中国电力出版社