SRE工程师应知应会97件事
中国DevOps社区 译
出版时间:2023年06月
页数:236
测试你的灾难恢复计划。
—Tanya Reilly
将同理心融入到SRE工具中。
—Daniella Niyonkuru
我能给团队的最佳建议。
—Nicole Forsgren
在哪里进行SRE。
—Fatema Boxwala
面对第一页。
—Andrew Louis
预算有误,现在该怎么办?
—Alex Hidalgo
让你的工作得到认可:写一个充分展示自我的文档。
—Julia Evans & Karla Burnett
站点可靠性工程(SRE)比以往任何时候都更加重要。知道如何保持系统的可靠性,已经成为了一项关键技能。有了这本实用性很强的书,新手和老手都将能了解到许多在 SRE场景中发生的对话。你将获得关于多个主题的可操作建议,包括如何采用SRE、为什么SLOS很重要、何时需要升级事件响应机制,以及监控和可观测性有何不同等。
Incident Labs的联合创始人 Jaime Woo和Emil Stolarsky从整个行业收集了97条简单实用的技巧,包括值得信赖的最佳实践和解决棘手问题的新方法。通过了解发人深省的推动领域发展的问题,以及我们给出的合理建议,你将会提高和完善你的 SRE 技能。
- 前言
- 第1章 用六个词来概括站点可靠性工程
- 第2章 知道我们为什么真的需要可靠性么?
- 第3章 构建自调节过程
- 第4章 SRE家宴上的四个工程师
- 第5章 可靠性堆栈
- 第6章 基础设施:这就是力量所在
- 第7章 关于弹性的思考
- 第8章 开发周期中的可观测性
- 第9章 一切都是可以理解的
- 第10章 Wikipedia是如何为你服务的
- 第11章 为什么你应该对TCP有所了解?
- 第12章 管理接口的重要性
- 第13章 说到存储,请考虑分布式
- 第14章 数据基数的作用
- 第15章 安全就像洋葱
- 第16章 用话语记录
- 第17章 通往SRE之路
- 第18章 亲爱的未来团队
- 第19章 可持续性与职业倦怠
- 第20章 不要听从老师傅的建议
- 第21章 面对第一次的事故呼叫
- 第22章 SRE,文化至上
- 第23章 在小型组织中人人都是SRE
- 第24章 审计你的环境以促进改善
- 第25章 事故响应,从小处着手
- 第26章 独当一面的SRE:独自一个人影响大规模的变革
- 第27章 设计SLO度量的目标
- 第28章 我有错误预算——现在怎么办
- 第29章 如何改变现状
- 第30章 问题定位方法论
- 第31章 初创公司如何建立 SRE 思维
- 第32章 自力更生,在企业中落地SRE!
- 第33章 不知道没关系,出错也没关系
- 第34章 讲故事是一种超能力
- 第35章 让你的工作得到认可:写一份自夸的文档
- 第36章 让大家看到你的工作成果
- 第37章 被忽视的工程技能
- 第38章 卸下远程值守的包袱
- 第39章 事件处理大师
- 第40章 毫不费力的事件管理
- 第41章 如果你在做运行手册,就把它们做好
- 第42章 为什么我厌恶我们的流程手册
- 第43章 什么样的工具运行良好
- 第44章 将同理心注入SRE工具
- 第45章 使用ChatOps来实现共情
- 第46章 迅速行动,唯快不破
- 第47章 能在生产系统中运行才算确认
- 第48章 有时候修复本身就是问题
- 第49章 传奇故事
- 第50章 监控指标不是SLI(衡量一切的陷阱)
- 第51章 当SLO遭受质疑时如何去改善
- 第52章 产品可靠性的整体方法
- 第53章 寻找失去的时间
- 第54章 答疑时间的意外收获
- 第55章 为内部客户建立他们真正想要使用的工具
- 第56章 个体和交互那些事
- 第57章 SRE的人员能力基线
- 第58章 远程高效或高效远程
- 第59章 余量和个体
- 第60章 系统余量的重要性
- 第61章 更少的电子表格,更多的餐巾纸
- 第62章 巧妙地引入DevOps
- 第63章 在企业中有效的SRE文化变革
- 第64章 献给我爱的所有SRE
- 第65章 复杂:技术中最超负荷的词语
- 第66章 我给团队的最好建议
- 第67章 创造你的工作清单
- 第68章 按照SLO操作
- 第69章 英雄是必要的,英雄主义却不是
- 第70章 人们愿意参加的值班工作
- 第71章 学习研究人的因素和团队文化,进而改善呼叫器的疲劳度
- 第72章 优化恢复的平均时间
- 第73章 减轻和预防级联故障
- 第74章 实时健康度:可以衡量的指标
- 第75章 帮助领导者优先考虑实时健壮性的问题
- 第76章 作为外交官的SRE
- 第77章 前瞻性部署的SRE
- 第78章 检验你的灾备计划
- 第79章 为什么对于SRE实践来说培训是重要的,并且对于培训课程来说SRE很重要
- 第80章 单一化的力量
- 第81章 每个用户价值对应的字节数
- 第82章 把工程博客提上议事日程
- 第83章 要让任何人在你的上下文里运行代码
- 第84章 交易场所:站点可靠性工程和产品
- 第85章 透过团队看产品
- 第86章 性能储备金
- 第87章 重要但不紧急:SRE路线图
- 第88章 那些50%的事儿
- 第89章 遵循安全关键系统之路
- 第90章 适合且可实现的静态分析
- 第91章 形式化规范的重要
- 第92章 社会技术系统中的风险与腐烂
- 第93章 危机中的SRE
- 第94章 预期的风险限制
- 第95章 跨越局部风险:细数愤怒的小鸟
- 第96章 来自软件安全专业人士的一些建议
- 第97章 故障:让我们有机会一窥缺陷
- 第98章 第三代SRE
书名:SRE工程师应知应会97件事
译者:中国DevOps社区 译
国内出版社:中国电力出版社
出版时间:2023年06月
页数:236
书号:978-7-5198-7631-9
原版书书名:97 Things Every SRE Should Know
原版书出版商:O'Reilly Media
Emil Stolarsky
Emil Stolarsky是一名站点可靠性工程师,曾在 Shopify 和 DigitalOcean 的内部 负责Kubernetes 平台工作,负责缓存、性能和灾难恢复等内容。 如今,他是 Incident Labs 的联合创始人。业余时间里,他会听 Flume 的音乐,并通过攀岩来克服恐高症。
Jaime Woo
Jaime Woo的职业生涯始于分子生物学家,之后在 DigitalOcean、Riot Games 和 Shopify 工作过,在那里他又重新开始了工程通信方面的工作。他也是 Incident Labs 的联合创始人,专注于为团队提供改进的 SRE 工具,以获得更多的时间用于完成计划内的工作。 他也特别爱吃饺子。