《Google SRE工作手册》—

Google SRE工作手册

Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne 编著

钟诚, 刘征译

出版时间：2020年09月

页数：524

在2016年，Google的出版的第一本网站可靠性工程（SRE）书籍引起了行业的大范围讨论，当今生产环境服务运营意味这什么?为何可靠性方面的考虑是服务设计的基础?现在，编写上一本SRE畅销书的Google工程师们为我们隆重推出了本书，这是一本充满真实案例的实战参考手册，展示了如何在生产环境中运用SRE的原则和实践。
在这本全新的SRE工作手册中，提供的实践案例不但源于Google的经验，还来自那些经历过SRE旅程的Google公有云的用户。值得注意的是，本书还包括Evernote、The Home Depot、纽约时报和其他公司总结的来之不易的第一手经验。
无论你所在公司规模的大小，都可以深入研究这本工作手册，通过学习尝试完善你们自己的SRE实践。
你将会学到:
● 如何在你无法完全掌控的云环境里运行可靠的服务。
● 在你创建、监控和运行服务的过程中践行服务质量目标。
● 如何将现有运维团队转型为SRE，包括发掘出运营的最大价值。
● 从绿地或者棕地上启动SRE的方法。

目录
产品信息
关于作者

序言Ⅰ
序言Ⅱ
前言
第1章 SRE与DevOps的关系
关于DevOps的背景情况
关于SRE的背景情况
比较与对照
因地制宜才能倍
小结
第Ⅰ部分基础篇
第2章实施SLO
SRE为何需要SLO
入门
范例系统分析
选择合适的时间窗口
获取利益干系者的认同
SLO目标持续改进
基于SLO和错误预算的决策
进阶主题
小结
第3章 SLO工程案例研究
Evernote的SLO故事
Home Depot的SLO故事
小结
第4章监控
监控策略必备特性
监控数据源
管理监控系统
度量指标的意图
测试告警逻辑
小结
第5章基于SLO的告警
告警设定考量
重大事件告警方法
低流量服务和错误预算告警
极端的可用性目标
扩大告警范围
小结
第6章消除琐事
什么是琐事？
试题琐事
琐事分类法
琐事管理策略
实例研究
案例研究1:利用自动化减少数据中心的琐事
案例研究2:退役文件服务器后端的主目录
小结
第7章简单性
度量复杂性
简单性是端到端的，适合由SRE来负责
回归简单性
小结
第Ⅱ部分实践篇
第8章 on-call轮值
回顾第一本SRE书中的“on-call轮值”
Google内外的on-call部署模式案例
实战的实施细节
小结
第9章事故响应
Google的事故管理
案例分析
把最佳实践付诸实施
小结
第10章事后总结：从失败中学习
案例分析
糟糕的事后总结
优秀的事后总结
组织激励
工具和模版
小结
第11章管理负载
Google云的负载均衡
自动缩放
管理负载的多种策略
小结
第12章介绍非抽象大系统设计
什么是NALSD?
为什么“非抽象”？
AdWords示例
小结
第13章数据处理流水线
流水线应用
流水线最佳实践
流水线需求分析和设计
流水线故障的预防和响应
案例研究：Spotify
小结
第14章配置设计及最佳实践
什么是配置
配置原则
配置机制
小结
第15章配置规范
配置带来的琐事
减少配置带来的琐事
配置系统的关键属性和陷阱
集成配置语言
集成现有应用程序：Kubernetes
集成定制应用程序（自开发软件）
有效地运行配置系统
何时评估配置
防止滥用配置
小结
第16章金丝雀发布
发布工程原则
平衡发布速度和可靠性
什么是金丝雀发布？
发布工程和金丝雀发布
用前滚部署还是简单的金丝雀部署
实施金丝雀
选择和评估指标
依赖关系和隔离
非交互式系统中的金丝雀
监控数据需求
相关概念
小结
第Ⅲ部分流程
第17章发现运维超负荷并从中恢复
从正常负荷到超负荷
案例研究1:团队规模缩小一半后的工作超负荷
我们决定做什么
案例研究2:组织和工作负荷发生变化后的感知超负荷
缓解超负荷的策略
小结
第18章 SRE参与模式
服务的生命周期
建立关系
维持有效的持续关系
在更大的环境里规模化推行SRE
终止关系
案例研究1:Ares
案例研究2:数据分析流水线
小结
第19章 SRE：跨越壁垒
不言而喻的事实
实践SRE怎样与客户共舞
小结
第20章 SRE团队生命周期
没有SRE的SRE实践
引入SRE角色
第一个SRE团队
打造更多SRE团队
多团队动作的建议实践
小结
第21章管理SRE的组织变革
SRE拥抱变革
变革管理概述
案例研究1:扩展Waze——从见机行事到计划性变革
案例研究2:在SRE中采用通用工具
小结
结论
附录A SLO示例文档
附录B 错误预算策略示例
附录C 事后总结分析结果
作者介绍
封面介绍

书名：Google SRE工作手册

作者：Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne 编著

译者：钟诚, 刘征译

国内出版社：中国电力出版社

出版时间：2020年09月

页数：524

书号：9787519845858

原版书书名：The Site Reliability Workbook

原版书出版商：O'Reilly Media

Betsy Beyer

Betsy Beyer是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布全球的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前，Betsy是Stanford大学技术性写作课程的讲师。她曾经学习国际关系与英文文学，并在Stanford和Tulane获得学历。
Chris Jones是Google App Engine的一名SRE。Google App Engine是一个PaaS服务，每天处理超过280亿个请求。他的办公室在旧金山，他之前的工作包括Google广告统计、数据仓库，以及用户支持系统的维护。在之前，Chris曾经在学校IT行业任职，同时参与过竞选数据分析，以及一些BSD内核的修改。他有计算机工程、经济学，以及技术政策学的学位。同时他也是一名有执照的职业工程师。
Jennifer Petoff是Google SRE团队的一名项目经理，工作地点在都柏林，爱尔兰。她曾经负责管理大型全球项目，包括：科学研究、工程、人力资源，以及广告等。Jennifer在加入Google之前，曾在化工行业任职八年。她获得了Stanford大学的化学博士与学士学位，同时她还拥有Rochester大学的心理学学位。
Niall Murphy是Google爱尔兰团队广告SRE的负责人。他拥有20年互联网行业经验，目前是INEX（爱尔兰网络互联枢纽）的主席。他曾经写作以及参与写作很多科技文章与书籍，包括O’Reilly出版的IPv6 Network Administration，以及很多RFC。他目前在参与书写爱尔兰互联网发展史。他拥有计算机科学、数学，以及诗歌学的学历（他当时一定是想错了！）。他目前与妻子和两个儿子居住在都柏林。

查看Betsy Beyer更多信息

Niall Richard Murphy

Niall Richard Murphy是Google网站可靠性工程组织里曾经和现任的成员，他们的职责是关注和维护Google的生产系统。

查看Niall Richard Murphy更多信息

David K. Rensin

David K. Rensin是Google网站可靠性工程组织里曾经和现任的成员，他们的职责是关注和维护Google的生产系统。

查看David K. Rensin更多信息

Kent Kawahara

Kent Kawahara是Google网站可靠性工程组织里曾经和现任的成员，他们的职责是关注和维护Google的生产系统。

查看Kent Kawahara更多信息

Stephen Thorne

Stephen Thorne是Google网站可靠性工程组织里曾经和现任的成员，他们的职责是关注和维护Google的生产系统。

查看Stephen Thorne更多信息

购买选项

定价：128.00元

书号：9787519845858

出版社：中国电力出版社

联系出版社邮购