《SRE：Google运维解密》—

SRE：Google运维解密

孙宇聪译

出版时间：2016年09月

页数：480

大型软件系统生命周期的绝大部分都处于“使用”阶段，而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢？在《SRE：Google运维解密》中，Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的，以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。通过阅读《SRE：Google运维解密》，读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。
任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE：Google运维解密》。《SRE：Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。

目录
产品信息
关于作者

前言
序言
第I部分　概览
第1章　介绍
系统管理员模式
Google的解决之道：SRE
SRE方法论
确保长期关注研发工作
在保障服务SLO的前提下最大化迭代速度
监控系统
应急事件处理
变更管理
需求预测和容量规划
资源部署
效率与性能
小结
第2章　Google生产环境：SRE视角
硬件
管理物理服务器的系统管理软件
管理物理服务器
存储
网络
其他系统软件
分布式锁服务
监控与警报系统
软件基础设施
研发环境
莎士比亚搜索：一个示范服务
用户请求的处理过程
任务和数据的组织方式
第II部分　指导思想
第3章　拥抱风险
管理风险
度量服务的风险
服务的风险容忍度
辨别消费者服务的风险容忍度
基础设施服务的风险容忍度
使用错误预算的目的
错误预算的构建过程
好处
第4章　服务质量目标
服务质量术语
指标
目标
协议
指标在实践中的应用
运维人员和最终用户各关心什么
指标的收集
汇总
指标的标准化
目标在实践中的应用
目标的定义
目标的选择
控制手段
SLO可以建立用户预期
协议在实践中的应用
第5章　减少琐事
琐事的定义
为什么琐事越少越好
什么算作工程工作
琐事繁多是不是一定不好
小结
第6章　分布式系统的监控
术语定义
为什么要监控
对监控系统设置合理预期
现象与原因
黑盒监控与白盒监控
4个黄金指标
关于长尾问题
度量指标时采用合适的精度
简化，直到不能再简化
将上述理念整合起来
监控系统的长期维护
Bigtable SRE ：警报过多的案例
Gmail：可预知的、可脚本化的人工干预
长跑
小结
第7章　Google的自动化系统的演进
自动化的价值
一致性
平台性
修复速度更快
行动速度更快
节省时间
自动化对Google SRE的价值
自动化的应用案例
Google SRE的自动化使用案例
自动化分类的层次结构
让自己脱离工作：自动化所有的东西
舒缓疼痛：将自动化应用到集群上线中
使用Prodtest检测不一致情况
幂等地解决不一致情况
专业化倾向
以服务为导向的集群上线流程
Borg：仓库规模计算机的诞生
可靠性是最基本的功能
建议
第8章　发布工程
发布工程师的角色
发布工程哲学
自服务模型
追求速度
密闭性
强调策略和流程
持续构建与部署
构建
分支
测试
打包
Rapid系统
部署
配置管理
小结
不仅仅只对Google有用
一开始就进行发布工程
第9章　简单化
系统的稳定性与灵活性
乏味是一种美德
我绝对不放弃我的代码
“负代码行”作为一个指标
最小API
模块化
发布的简单化
小结
第III部分　具体实践
第10章　基于时间序列数据进行有效报警
Borgmon的起源
应用软件的监控埋点
监控指标的收集
时间序列数据的存储
标签与向量
Borg规则计算
报警
监控系统的分片机制
黑盒监控
配置文件的维护
十年之后
第11章　on-call轮值
介绍
on-call工程师的一天
on-call工作平衡
数量上保持平衡
质量上保持平衡
补贴措施
安全感
避免运维压力过大
运维压力过大
奸诈的敌人—运维压力不够
小结
第12章　有效的故障排查手段
理论
实践
故障报告
定位
检查
诊断
测试和修复
神奇的负面结果
治愈
案例分析
使故障排查更简单
小结
第13章　紧急事件响应
当系统出现问题时怎么办
测试导致的紧急事故
细节
响应
事后总结
变更部署带来的紧急事故
细节
事故响应
事后总结
流程导致的严重事故
细节
灾难响应
事后总结
所有的问题都有解决方案
向过去学习，而不是重复它
为事故保留记录
提出那些大的，甚至不可能的问题：假如……
鼓励主动测试
小结
第14章　紧急事故管理
无流程管理的紧急事故
对这次无流程管理的事故的剖析
过于关注技术问题
沟通不畅
不请自来
紧急事故的流程管理要素
嵌套式职责分离
控制中心
实时事故状态文档
明确公开的职责交接
一次流程管理良好的事故
什么时候对外宣布事故
小结
第15章　事后总结：从失败中学习
Google的事后总结哲学
协作和知识共享
建立事后总结文化
小结以及不断优化
第16章　跟踪故障
Escalator
Outalator
聚合
加标签
分析
未预料到的好处
第17章　测试可靠性
软件测试的类型
传统测试
生产测试
创造一个构建和测试环境
大规模测试
测试大规模使用的工具
针对灾难的测试
对速度的渴求
发布到生产环境
允许测试失败
集成
生产环境探针
小结
第18章　SRE部门中的软件工程实践
为什么软件工程项目对SRE很重要
Auxon案例分析：项目背景和要解决的问题
传统的容量规划方法
解决方案：基于意图的容量规划
基于意图的容量规划
表达产品意图的先导条件
Auxon简介
需求和实现：成功和不足
提升了解程度，推进采用率
团队内部组成
在SRE团队中培养软件工程风气
在SRE团队中建立起软件工程氛围：招聘与开发时间
做到这一点
小结
第19章　前端服务器的负载均衡
有时候硬件并不能解决问题
使用DNS进行负载均衡
负载均衡：虚拟IP
第20章　数据中心内部的负载均衡系统
理想情况
识别异常任务：流速控制和跛脚鸭任务
异常任务的简单应对办法：流速控制
一个可靠的识别异常任务的方法：跛脚鸭状态
利用划分子集限制连接池大小
选择合适的子集
子集选择算法一：随机选择
子集选择算法二：确定性算法
负载均衡策略
简单轮询算法
最闲轮询策略
加权轮询策略
第21章　应对过载
QPS陷阱
给每个用户设置限制
客户端侧的节流机制
重要性
资源利用率信号
处理过载错误
决定何时重试
连接造成的负载
小结
第22章　处理连锁故障
连锁故障产生的原因和如何从设计上避免
服务器过载
资源耗尽
服务不可用
防止软件服务器过载
队列管理
流量抛弃和优雅降级
重试
请求延迟和截止时间
慢启动和冷缓存
保持调用栈永远向下
连锁故障的触发条件
进程崩溃
进程更新
新的发布
自然增长
计划中或计划外的不可用
连锁故障的测试
测试直到出现故障，还要继续测试
测试最常用的客户端
测试非关键性后端
解决连锁故障的立即步骤
增加资源
停止健康检查导致的任务死亡
重启软件服务器
丢弃流量
进入降级模式
消除批处理负载
消除有害的流量
小结
第23章　管理关键状态：利用分布式共识来提高可靠性
使用共识系统的动力：分布式系统协调失败
案例1：脑裂问题
案例2：需要人工干预的灾备切换
案例3：有问题的小组成员算法
分布式共识是如何工作的
Paxos概要：协议示例
分布式共识的系统架构模式
可靠的复制状态机
可靠的复制数据存储和配置存储
使用领头人选举机制实现高可用的处理系统
分布式协调和锁服务
可靠的分布式队列和消息传递
分布式共识系统的性能问题
复合式Paxos：消息流过程详解
应对大量的读操作
法定租约
分布式共识系统的性能与网络延迟
快速Paxos协议：性能优化
稳定的领头人机制
批处理
磁盘访问
分布式共识系统的部署
副本的数量
副本的位置
容量规划和负载均衡
对分布式共识系统的监控
小结
第24章　分布式周期性任务系统
Cron
介绍
可靠性
Cron任务和幂等性
大规模Cron系统
对基础设施的扩展
对需求的扩展
Google Cron系统的构建过程
跟踪Cron任务的状态
Paxos协议的使用
领头人角色和追随者角色
保存状态
运维大型Cron系统
小结
第25章　数据处理流水线
流水线设计模式的起源
简单流水线设计模式与大数据
周期性流水线模式的挑战
工作分发不均造成的问题
分布式环境中周期性数据流水线的缺点
监控周期性流水线的问题
惊群效应
摩尔负载模式
Google Workflow简介
Workflow是模型—视图—控制器（MVC）模式
Workflow中的执行阶段
Workflow正确性保障
保障业务的持续性
小结
第26章　数据完整性：读写一致
数据完整性的强需求
提供超高的数据完整性的策略
备份与存档
云计算环境下的需求
保障数据完整性和可用性：Google SRE的目标
数据完整性是手段，数据可用性是目标
交付一个恢复系统，而非备份系统
造成数据丢失的事故类型
维护数据完整性的深度和广度的困难之处
Google SRE保障数据完整性的手段
24种数据完整性的事故组合
第一层：软删除
第二层：备份和相关的恢复方法
额外一层：复制机制
1T vs. 1E：存储更多数据没那么简单
第三层：早期预警
确保数据恢复策略可以正常工作
案例分析
Gmail—2011年2月：从GTape上恢复数据（磁带）
Google Music—2012年3月：一次意外删除事故的检测过程
SRE的基本理念在数据完整性上的应用
保持初学者的心态
信任但要验证
不要一厢情愿
纵深防御
小结
第27章　可靠地进行产品的大规模发布
发布协调工程师
发布协调工程师的角色
建立发布流程
发布检查列表
推动融合和简化
发布未知的产品
起草一个发布检查列表
架构与依赖
集成
容量规划
故障模式
客户端行为
流程与自动化
开发流程
外部依赖
发布计划
可靠发布所需要的方法论
灰度和阶段性发布
功能开关框架
应对客户端滥用行为
过载行为和压力测试
LCE的发展
LCE检查列表的变迁
LCE没有解决的问题
小结
第IV部分　管理
第28章　迅速培养SRE加入on-call
新的SRE已经招聘到了，接下来怎么办
培训初期：重体系，而非混乱
系统性、累积型的学习方式
目标性强的项目工作，而非琐事
培养反向工程能力和随机应变能力
反向工程：弄明白系统如何工作
统计学和比较性思维：在压力下坚持科学方法论
随机应变的能力：当意料之外的事情发生时怎么办
将知识串联起来：反向工程某个生产环境服务
有抱负的on-call工程师的5个特点
对事故的渴望：事后总结的阅读和书写
故障处理分角色演习
破坏真的东西，并且修复它们
维护文档是学徒任务的一部分
尽早、尽快见习on-call
on-call之后：通过培训的仪式感，以及日后的持续教育
小结
第29章　处理中断性任务
管理运维负载
如何决策对中断性任务的处理策略
不完美的机器
流状态
将一件事情做好
实际一点的建议
减少中断
第30章　通过嵌入SRE的方式帮助团队从运维过载中恢复
第一阶段：了解服务，了解上下文
确定最大的压力来源
找到导火索
第二阶段：分享背景知识
书写一个好的事后总结作为示范
将紧急事件按类型排序
第三阶段：主导改变
从基础开始
获取团队成员的帮助
解释你的逻辑推理过程
提出引导性问题
小结
第31章　SRE与其他团队的沟通与协作
沟通：生产会议
议程
出席人员
SRE的内部协作
团队构成
高效工作的技术
SRE内部的协作案例分析：
Viceroy的诞生
所面临的挑战
建议
SRE与其他部门之间的协作
案例分析：将DFP迁移到F1
小结
第32章　SRE参与模式的演进历程
SRE参与模式：是什么、怎么样以及为什么
PRR模型
SRE参与模型
替代性支持
PRR：简单PRR模型
参与
分析
改进和重构
培训
“接手”服务
持续改进
简单PRR 模型的演进：早期参与模型
早期参与模型的适用对象
早期参与模型的优势
不断发展的服务：框架和SRE平台
经验教训
影响SRE的外部因素
结构化的解决方案：框架
新服务和管理优势
小结
第V部分　结束语
第33章　其他行业的实践经验
有其他行业背景的资深SRE
灾难预案与演习
从组织架构层面坚持不懈地对安全进行关注
关注任何细节
冗余容量
模拟以及进行线上灾难演习
培训与考核
对详细的需求收集和系统设计的关注
纵深防御
事后总结的文化
将重复性工作自动化，消除运维负载
结构化和理性的决策
小结
第34章　结语
附录A　系统可用性
附录B　生产环境运维过程中的最佳实践
附录C　事故状态文档示范
附录D　事后总结示范
附录E　发布协调检查列表
附录F　生产环境会议记录示范
参考文献
索引

书名：SRE：Google运维解密

作者：Betsy Beyer 著

译者：孙宇聪译

国内出版社：电子工业出版社

出版时间：2016年09月

页数：480

书号：978-7-121-29726-7

原版书书名：Site Reliability Engineering

原版书出版商：O'Reilly Media

Betsy Beyer

Betsy Beyer是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布全球的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前，Betsy是Stanford大学技术性写作课程的讲师。她曾经学习国际关系与英文文学，并在Stanford和Tulane获得学历。
Chris Jones是Google App Engine的一名SRE。Google App Engine是一个PaaS服务，每天处理超过280亿个请求。他的办公室在旧金山，他之前的工作包括Google广告统计、数据仓库，以及用户支持系统的维护。在之前，Chris曾经在学校IT行业任职，同时参与过竞选数据分析，以及一些BSD内核的修改。他有计算机工程、经济学，以及技术政策学的学位。同时他也是一名有执照的职业工程师。
Jennifer Petoff是Google SRE团队的一名项目经理，工作地点在都柏林，爱尔兰。她曾经负责管理大型全球项目，包括：科学研究、工程、人力资源，以及广告等。Jennifer在加入Google之前，曾在化工行业任职八年。她获得了Stanford大学的化学博士与学士学位，同时她还拥有Rochester大学的心理学学位。
Niall Murphy是Google爱尔兰团队广告SRE的负责人。他拥有20年互联网行业经验，目前是INEX（爱尔兰网络互联枢纽）的主席。他曾经写作以及参与写作很多科技文章与书籍，包括O’Reilly出版的IPv6 Network Administration，以及很多RFC。他目前在参与书写爱尔兰互联网发展史。他拥有计算机科学、数学，以及诗歌学的学历（他当时一定是想错了！）。他目前与妻子和两个儿子居住在都柏林。

查看Betsy Beyer更多信息

购买选项

定价：108.00元

书号：978-7-121-29726-7

出版社：电子工业出版社

联系出版社邮购