《SRE工程师应知应会97件事》—

SRE工程师应知应会97件事

中国DevOps社区译

出版时间：2023年06月

页数：236

测试你的灾难恢复计划。
—Tanya Reilly
将同理心融入到SRE工具中。
—Daniella Niyonkuru
我能给团队的最佳建议。
—Nicole Forsgren
在哪里进行SRE。
—Fatema Boxwala
面对第一页。
—Andrew Louis
预算有误，现在该怎么办？
—Alex Hidalgo
让你的工作得到认可：写一个充分展示自我的文档。
—Julia Evans & Karla Burnett
站点可靠性工程（SRE）比以往任何时候都更加重要。知道如何保持系统的可靠性，已经成为了一项关键技能。有了这本实用性很强的书，新手和老手都将能了解到许多在 SRE场景中发生的对话。你将获得关于多个主题的可操作建议，包括如何采用SRE、为什么SLOS很重要、何时需要升级事件响应机制，以及监控和可观测性有何不同等。
Incident Labs的联合创始人 Jaime Woo和Emil Stolarsky从整个行业收集了97条简单实用的技巧，包括值得信赖的最佳实践和解决棘手问题的新方法。通过了解发人深省的推动领域发展的问题，以及我们给出的合理建议，你将会提高和完善你的 SRE 技能。

目录
产品信息
关于作者

前言
第1章用六个词来概括站点可靠性工程
第2章知道我们为什么真的需要可靠性么？
第3章构建自调节过程
第4章 SRE家宴上的四个工程师
第5章可靠性堆栈
第6章基础设施：这就是力量所在
第7章关于弹性的思考
第8章开发周期中的可观测性
第9章一切都是可以理解的
第10章 Wikipedia是如何为你服务的
第11章为什么你应该对TCP有所了解？
第12章管理接口的重要性
第13章说到存储，请考虑分布式
第14章数据基数的作用
第15章安全就像洋葱
第16章用话语记录
第17章通往SRE之路
第18章亲爱的未来团队
第19章可持续性与职业倦怠
第20章不要听从老师傅的建议
第21章面对第一次的事故呼叫
第22章 SRE，文化至上
第23章在小型组织中人人都是SRE
第24章审计你的环境以促进改善
第25章事故响应，从小处着手
第26章独当一面的SRE：独自一个人影响大规模的变革
第27章设计SLO度量的目标
第28章我有错误预算——现在怎么办
第29章如何改变现状
第30章问题定位方法论
第31章初创公司如何建立 SRE 思维
第32章自力更生，在企业中落地SRE！
第33章不知道没关系，出错也没关系
第34章讲故事是一种超能力
第35章让你的工作得到认可:写一份自夸的文档
第36章让大家看到你的工作成果
第37章被忽视的工程技能
第38章卸下远程值守的包袱
第39章事件处理大师
第40章毫不费力的事件管理
第41章如果你在做运行手册，就把它们做好
第42章为什么我厌恶我们的流程手册
第43章什么样的工具运行良好
第44章将同理心注入SRE工具
第45章使用ChatOps来实现共情
第46章迅速行动，唯快不破
第47章能在生产系统中运行才算确认
第48章有时候修复本身就是问题
第49章传奇故事
第50章监控指标不是SLI(衡量一切的陷阱)
第51章当SLO遭受质疑时如何去改善
第52章产品可靠性的整体方法
第53章寻找失去的时间
第54章答疑时间的意外收获
第55章为内部客户建立他们真正想要使用的工具
第56章个体和交互那些事
第57章 SRE的人员能力基线
第58章远程高效或高效远程
第59章余量和个体
第60章系统余量的重要性
第61章更少的电子表格，更多的餐巾纸
第62章巧妙地引入DevOps
第63章在企业中有效的SRE文化变革
第64章献给我爱的所有SRE
第65章复杂：技术中最超负荷的词语
第66章我给团队的最好建议
第67章创造你的工作清单
第68章按照SLO操作
第69章英雄是必要的，英雄主义却不是
第70章人们愿意参加的值班工作
第71章学习研究人的因素和团队文化，进而改善呼叫器的疲劳度
第72章优化恢复的平均时间
第73章减轻和预防级联故障
第74章实时健康度：可以衡量的指标
第75章帮助领导者优先考虑实时健壮性的问题
第76章作为外交官的SRE
第77章前瞻性部署的SRE
第78章检验你的灾备计划
第79章为什么对于SRE实践来说培训是重要的，并且对于培训课程来说SRE很重要
第80章单一化的力量
第81章每个用户价值对应的字节数
第82章把工程博客提上议事日程
第83章要让任何人在你的上下文里运行代码
第84章交易场所：站点可靠性工程和产品
第85章透过团队看产品
第86章性能储备金
第87章重要但不紧急：SRE路线图
第88章那些50%的事儿
第89章遵循安全关键系统之路
第90章适合且可实现的静态分析
第91章形式化规范的重要
第92章社会技术系统中的风险与腐烂
第93章危机中的SRE
第94章预期的风险限制
第95章跨越局部风险：细数愤怒的小鸟
第96章来自软件安全专业人士的一些建议
第97章故障：让我们有机会一窥缺陷
第98章第三代SRE

书名：SRE工程师应知应会97件事

作者：Emil Stolarsky, Jaime Woo 编

译者：中国DevOps社区译

国内出版社：中国电力出版社

出版时间：2023年06月

页数：236

书号：978-7-5198-7631-9

原版书书名：97 Things Every SRE Should Know

原版书出版商：O'Reilly Media

Emil Stolarsky

Emil Stolarsky是一名站点可靠性工程师，曾在 Shopify 和 DigitalOcean 的内部负责Kubernetes 平台工作，负责缓存、性能和灾难恢复等内容。如今，他是 Incident Labs 的联合创始人。业余时间里，他会听 Flume 的音乐，并通过攀岩来克服恐高症。

查看Emil Stolarsky更多信息

Jaime Woo

Jaime Woo的职业生涯始于分子生物学家，之后在 DigitalOcean、Riot Games 和 Shopify 工作过，在那里他又重新开始了工程通信方面的工作。他也是 Incident Labs 的联合创始人，专注于为团队提供改进的 SRE 工具，以获得更多的时间用于完成计划内的工作。他也特别爱吃饺子。

查看Jaime Woo更多信息

购买选项

定价：88.00元

书号：978-7-5198-7631-9

出版社：中国电力出版社

联系出版社邮购