SRE工程师应知应会97件事
Emil Stolarsky, Jaime Woo
中国DevOps社区 译
出版时间:2023年06月
页数:236
测试你的灾难恢复计划。
—Tanya Reilly
将同理心融入到SRE工具中。
—Daniella Niyonkuru
我能给团队的最佳建议。
—Nicole Forsgren
在哪里进行SRE。
—Fatema Boxwala
面对第一页。
—Andrew Louis
预算有误,现在该怎么办?
—Alex Hidalgo
让你的工作得到认可:写一个充分展示自我的文档。
—Julia Evans & Karla Burnett
站点可靠性工程(SRE)比以往任何时候都更加重要。知道如何保持系统的可靠性,已经成为了一项关键技能。有了这本实用性很强的书,新手和老手都将能了解到许多在 SRE场景中发生的对话。你将获得关于多个主题的可操作建议,包括如何采用SRE、为什么SLOS很重要、何时需要升级事件响应机制,以及监控和可观测性有何不同等。
Incident Labs的联合创始人 Jaime Woo和Emil Stolarsky从整个行业收集了97条简单实用的技巧,包括值得信赖的最佳实践和解决棘手问题的新方法。通过了解发人深省的推动领域发展的问题,以及我们给出的合理建议,你将会提高和完善你的 SRE 技能。
  1. 前言
  2. 第1章 用六个词来概括站点可靠性工程
  3. 第2章 知道我们为什么真的需要可靠性么?
  4. 第3章 构建自调节过程
  5. 第4章 SRE家宴上的四个工程师
  6. 第5章 可靠性堆栈
  7. 第6章 基础设施:这就是力量所在
  8. 第7章 关于弹性的思考
  9. 第8章 开发周期中的可观测性
  10. 第9章 一切都是可以理解的
  11. 第10章 Wikipedia是如何为你服务的
  12. 第11章 为什么你应该对TCP有所了解?
  13. 第12章 管理接口的重要性
  14. 第13章 说到存储,请考虑分布式
  15. 第14章 数据基数的作用
  16. 第15章 安全就像洋葱
  17. 第16章 用话语记录
  18. 第17章 通往SRE之路
  19. 第18章 亲爱的未来团队
  20. 第19章 可持续性与职业倦怠
  21. 第20章 不要听从老师傅的建议
  22. 第21章 面对第一次的事故呼叫
  23. 第22章 SRE,文化至上
  24. 第23章 在小型组织中人人都是SRE
  25. 第24章 审计你的环境以促进改善
  26. 第25章 事故响应,从小处着手
  27. 第26章 独当一面的SRE:独自一个人影响大规模的变革
  28. 第27章 设计SLO度量的目标
  29. 第28章 我有错误预算——现在怎么办
  30. 第29章 如何改变现状
  31. 第30章 问题定位方法论
  32. 第31章 初创公司如何建立 SRE 思维
  33. 第32章 自力更生,在企业中落地SRE!
  34. 第33章 不知道没关系,出错也没关系
  35. 第34章 讲故事是一种超能力
  36. 第35章 让你的工作得到认可:写一份自夸的文档
  37. 第36章 让大家看到你的工作成果
  38. 第37章 被忽视的工程技能
  39. 第38章 卸下远程值守的包袱
  40. 第39章 事件处理大师
  41. 第40章 毫不费力的事件管理
  42. 第41章 如果你在做运行手册,就把它们做好
  43. 第42章 为什么我厌恶我们的流程手册
  44. 第43章 什么样的工具运行良好
  45. 第44章 将同理心注入SRE工具
  46. 第45章 使用ChatOps来实现共情
  47. 第46章 迅速行动,唯快不破
  48. 第47章 能在生产系统中运行才算确认
  49. 第48章 有时候修复本身就是问题
  50. 第49章 传奇故事
  51. 第50章 监控指标不是SLI(衡量一切的陷阱)
  52. 第51章 当SLO遭受质疑时如何去改善
  53. 第52章 产品可靠性的整体方法
  54. 第53章 寻找失去的时间
  55. 第54章 答疑时间的意外收获
  56. 第55章 为内部客户建立他们真正想要使用的工具
  57. 第56章 个体和交互那些事
  58. 第57章 SRE的人员能力基线
  59. 第58章 远程高效或高效远程
  60. 第59章 余量和个体
  61. 第60章 系统余量的重要性
  62. 第61章 更少的电子表格,更多的餐巾纸
  63. 第62章 巧妙地引入DevOps
  64. 第63章 在企业中有效的SRE文化变革
  65. 第64章 献给我爱的所有SRE
  66. 第65章 复杂:技术中最超负荷的词语
  67. 第66章 我给团队的最好建议
  68. 第67章 创造你的工作清单
  69. 第68章 按照SLO操作
  70. 第69章 英雄是必要的,英雄主义却不是
  71. 第70章 人们愿意参加的值班工作
  72. 第71章 学习研究人的因素和团队文化,进而改善呼叫器的疲劳度
  73. 第72章 优化恢复的平均时间
  74. 第73章 减轻和预防级联故障
  75. 第74章 实时健康度:可以衡量的指标
  76. 第75章 帮助领导者优先考虑实时健壮性的问题
  77. 第76章 作为外交官的SRE
  78. 第77章 前瞻性部署的SRE
  79. 第78章 检验你的灾备计划
  80. 第79章 为什么对于SRE实践来说培训是重要的,并且对于培训课程来说SRE很重要
  81. 第80章 单一化的力量
  82. 第81章 每个用户价值对应的字节数
  83. 第82章 把工程博客提上议事日程
  84. 第83章 要让任何人在你的上下文里运行代码
  85. 第84章 交易场所:站点可靠性工程和产品
  86. 第85章 透过团队看产品
  87. 第86章 性能储备金
  88. 第87章 重要但不紧急:SRE路线图
  89. 第88章 那些50%的事儿
  90. 第89章 遵循安全关键系统之路
  91. 第90章 适合且可实现的静态分析
  92. 第91章 形式化规范的重要
  93. 第92章 社会技术系统中的风险与腐烂
  94. 第93章 危机中的SRE
  95. 第94章 预期的风险限制
  96. 第95章 跨越局部风险:细数愤怒的小鸟
  97. 第96章 来自软件安全专业人士的一些建议
  98. 第97章 故障:让我们有机会一窥缺陷
  99. 第98章 第三代SRE
书名:SRE工程师应知应会97件事
作者:Emil Stolarsky, Jaime Woo
译者:中国DevOps社区 译
国内出版社:中国电力出版社
出版时间:2023年06月
页数:236
书号:978-7-5198-7631-9
原版书书名:97 Things Every SRE Should Know
原版书出版商:O'Reilly Media
Emil Stolarsky
 
Emil Stolarsky是一名站点可靠性工程师,曾在 Shopify 和 DigitalOcean 的内部 负责Kubernetes 平台工作,负责缓存、性能和灾难恢复等内容。 如今,他是 Incident Labs 的联合创始人。业余时间里,他会听 Flume 的音乐,并通过攀岩来克服恐高症。
 
 
Jaime Woo
 
Jaime Woo的职业生涯始于分子生物学家,之后在 DigitalOcean、Riot Games 和 Shopify 工作过,在那里他又重新开始了工程通信方面的工作。他也是 Incident Labs 的联合创始人,专注于为团队提供改进的 SRE 工具,以获得更多的时间用于完成计划内的工作。 他也特别爱吃饺子。
 
 
购买选项
定价:88.00元
书号:978-7-5198-7631-9
出版社:中国电力出版社