监控运维实践:原则与策略
Mike Julian
王作佳, 孙浩文 译
出版时间:2020年11月
页数:122
如今监控领域的形势和几年前大不相同,微服务架构的流行给监控带来了新的问题。你是否觉得你的监控系统需要改进,但不确定从哪里开始或如何开始?你是否受到持续不断、毫无意义的告警困扰?你的监控系统是否经常遗漏真正的问题?如果是这样,那么本书非常适合你。
本书从监控的原则和策略入手,介绍了一种设计和实现有效监控的实用方法,该方法适用于企业应用程序、服务器、网络、安全等。作者不仅通过真实示例介绍了监控设计模式,还阐释了监控的反模式,并且提供了关于特定类型监控的建议。本书对于了解、研究监控,以及实现现代化的监控,具有指导意义。
本书涵盖的核心主题包括:
● 监控反模式
● 监控设计模式
● 如何建立有效的待命值班制度
● 监控什么、为什么要监控以及如何监控
  1. 前言
  2. 第一部分 监控的原则
  3. 第1章 监控反模式 
  4. 1.1 反模式1:沉迷工具 
  5. 1.1.1 监控是多个复杂问题的总称 
  6. 1.1.2 避免对工具船货崇拜 
  7. 1.1.3 有时候,你确实需要自己创建工具 
  8. 1.1.4 单一窗口只是个神话 
  9. 1.2 反模式2:监控岗位化 
  10. 1.3 反模式3:复选框式监控 
  11. 1.3.1 “正常运行”的真正含义是什么?答案就是监控 
  12. 1.3.2 对告警来说,操作系统指标不是很有用 
  13. 1.3.3 增加收集指标数据的频率 
  14. 1.4 反模式4:把监控当作拐杖 
  15. 1.5 反模式5:手动配置 
  16. 1.6 小结 
  17. 第2章 监控设计模式 
  18. 2.1 设计模式1:可组合监控 
  19. 2.2 设计模式2:从用户角度监控 
  20. 2.3 设计模式3:购买,不要构建 
  21. 2.3.1 这样更省钱 
  22. 2.3.2 你(可能)不是一个设计这些工具的专家 
  23. 2.3.3 SaaS允许你关注公司的产品 
  24. 2.3.4 不,是真的,SaaS实际上更好 
  25. 2.4 设计模式4:持续改善 
  26. 2.5 小结 
  27. 第3章 告警、待命值班以及事件管理 
  28. 3.1 怎样才能创建优秀的告警 
  29. 3.1.1 停止使用电子邮件发送告警 
  30. 3.1.2 撰写运行手册 
  31. 3.1.3 任意的静态阈值不是唯一的方法 
  32. 3.1.4 删除告警和优化告警 
  33. 3.1.5 使用维护周期 
  34. 3.1.6 优先尝试自动修复 
  35. 3.2 待命值班 
  36. 3.2.1 修正假警报 
  37. 3.2.2 减少不必要的救火 
  38. 3.2.3 制定更好的待命值班周期 
  39. 3.3 事件管理 
  40. 3.4 事后分析 
  41. 3.5 小结 
  42. 第4章 统计入门 
  43. 4.1 在系统运行统计之前 
  44. 4.2 数学来拯救 
  45. 4.3 统计不是魔法 
  46. 4.4 平均值和平均数 
  47. 4.5 中位数 
  48. 4.6 季节效应 
  49. 4.7 分位数 
  50. 4.8 标准差 
  51. 4.9 小结 
  52. 第二部分 监控的策略
  53. 第5章 监控业务 
  54. 5.1 业务KPI 
  55. 5.2 两个真实的案例 
  56. 5.2.1 Yelp 
  57. 5.2.2 Reddit 
  58. 5.3 将业务KPI与技术指标绑定 
  59. 5.4 应用程序没有提供这些指标 
  60. 5.5 找到公司的业务KPI 
  61. 5.6 小结 
  62. 第6章 前端监控 
  63. 6.1 一个慢应用的代价 
  64. 6.2 前端监控的两种方法 
  65. 6.3 文档对象模型 
  66. 6.3.1 前端性能指标 
  67. 6.3.2 这很棒,但是我要怎么使用呢 
  68. 6.4 日志 
  69. 6.5 合成监控 
  70. 6.6 小结 
  71. 第7章 应用程序监控 
  72. 7.1 用指标衡量应用程序 
  73. 7.2 监控构建和发布管道 
  74. 7.3 /health端点模式 
  75. 7.4 应用程序日志 
  76. 7.4.1 等等……我应该有一个指标或日志条目吗 
  77. 7.4.2 应该给什么记录日志 
  78. 7.4.3 写入磁盘还是写入网络
  79. 7.5 Serverless/FaaS(函数即服务) 
  80. 7.6 监控微服务架构 
  81. 7.7 小结 
  82. 第8章 服务器监控 
  83. 8.1 标准操作系统指标 
  84. 8.1.1 CPU 
  85. 8.1.2 内存 
  86. 8.1.3 网络 
  87. 8.1.4 磁盘 
  88. 8.1.5 负载 
  89. 8.2 SSL证书 
  90. 8.3 SNMP 
  91. 8.4 Web服务器 
  92. 8.5 数据库服务器 
  93. 8.6 负载均衡器 
  94. 8.7 消息队列 
  95. 8.8 缓存 
  96. 8.9 DNS 
  97. 8.10 NTP 
  98. 8.11 其他企业基础设施 
  99. 8.11.1 DHCP 
  100. 8.11.2 SMTP 
  101. 8.12 监控定时任务 
  102. 8.13 记录日志 
  103. 8.13.1 采集 
  104. 8.13.2 存储 
  105. 8.13.3 分析 
  106. 8.14 小结 
  107. 第9章 网络监控 
  108. 9.1 SNMP之痛 
  109. 9.1.1 什么是SNMP 
  110. 9.1.2 它的工作原理是什么 
  111. 9.1.3 关于安全的一点建议 
  112. 9.1.4 如何使用SNMP 
  113. 9.1.5 接口指标
  114. 9.1.6 接口和日志 
  115. 9.1.7 要点总结 
  116. 9.2 配置跟踪 
  117. 9.3 语音和视频 
  118. 9.4 路由 
  119. 9.5 生成树协议(STP) 
  120. 9.6 机架 
  121. 9.6.1 CPU和内存 
  122. 9.6.2 硬件 
  123. 9.7 流监控 
  124. 9.8 容量规划 
  125. 9.8.1 倒推 
  126. 9.8.2 预测 
  127. 9.9 小结 
  128. 第10章 安全监控 
  129. 10.1 监控和合规 
  130. 10.2 用户、命令以及文件系统审计 
  131. 10.2.1 配置并运行auditd 
  132. 10.2.2 auditd和远端日志 
  133. 10.3 主机入侵检测系统 
  134. 10.4 rkhunter 
  135. 10.5 网络入侵检测系统 
  136. 10.6 小结 
  137. 第11章 监控评估 
  138. 11.1 业务KPI 
  139. 11.2 前端监控 
  140. 11.3 应用程序和服务器监控 
  141. 11.4 安全监控 
  142. 11.5 告警 
  143. 11.6 小结 
  144. 附录A 运行手册示例:一个演示应用程序 
  145. 附录B 可用性表格 
  146. 作者介绍 
  147. 封面介绍
书名:监控运维实践:原则与策略
作者:Mike Julian
译者:王作佳, 孙浩文 译
国内出版社:人民邮电出版社
出版时间:2020年11月
页数:122
书号:978-7-115-55075-0
原版书书名:Practical Monitoring
原版书出版商:O'Reilly Media
Mike Julian
 
Mike Julian,Duckbill Group CEO,应用程序和基础设施监 控顾问,在线出版物Monitoring Weekly主编。曾在Taos Consulting、Peak Hosting、美国橡树岭国家实验室等机构担任运营/DevOps工程师。