事后分析模板
这是我们在PagerDuty进行事后分析时使用的标准模板。每个部分都描述了您希望在该部分中包含的信息类型。
指南
此页面旨在在任何事件发生后的5个工作日内安排的事后分析会议期间进行审查。 您的第一步应该是在事件发生后的5个工作日内,在共享日历上安排事后分析会议。 不要等到填写完信息后再安排会议。确保在会议前完成页面。
事后分析负责人: 您的名字放在这里。
会议安排日期: 在“事件事后分析会议”共享日历上安排会议,在事件发生后的5个工作日内。将日期/时间放在这里。
通话录音: 指向事件通话录音的链接。
概述#
包括一两句总结贡献因素、时间线摘要和影响的简短句子。例如:“8月99日上午,由于我们的主数据库机器上的失控进程,我们遭受了1分钟的SEV-1。这种缓慢导致在此期间开始的约0.024%的警报未能在服务水平协议(SLA)内送达。”
发生了什么#
简要描述发生了什么。
贡献因素#
描述任何导致问题的条件。如果采取了任何加剧问题的行动,也请在此处包括,目的是从解决过程中犯的错误中学习。
解决办法#
描述解决了问题的方法。如果有临时修复措施,请描述该措施以及长期解决方案。
影响#
在这里要非常具体,并包括确切的数字。
处于SEV-1的时间 | ?分钟 |
处于SEV-2的时间 | ?分钟 |
超出SLA送达的通知 | ??% (?? of ??) |
丢弃/未接受的事件 | ??% (?? of ??) 通常应为0,但始终检查 |
受影响的账户 | ?? |
受影响的用户 | ?? |
提出的支持请求 | ?? 包括任何相关的工单链接 |
响应者#
- 谁是IC?
- 谁是记录员?
- 还有谁参与了?
时间线#
包括一些重要的时间点:(1)贡献因素开始的时间,(2)页面触发的时间,(3)状态页面更新的时间(即事件公开的时间),(4)任何重要行动的时间,(5)SEV-2/1结束的时间,(6)显示如何确定时间戳的工具/日志链接。
时间 (UTC) | 事件 | 数据链接 |
---|---|---|
我们做得如何?#
做得好的地方?#
- 列出你做得好并想要强调的任何事情。不列出任何内容也是可以的。
做得不好的地方?#
- 列出你认为我们做得不太好的任何事情。目的是我们应该跟进这里的所有点以改进我们的流程。
行动项#
每个行动项应以JIRA工单的形式出现,每个工单应具有相同的两个标签:“sev1_YYYYMMDD”(例如sev1_20150911)和简单的“sev1”。包括以下行动项:(1)任何防止未来贡献因素所需的修复,(2)任何有助于在问题再次出现时减轻问题的准备任务,(3)剩余的事后分析步骤,如内部邮件,以及状态页面的公开帖子,(4)我们事件响应流程的任何改进。
信息传递#
内部邮件#
这是对员工的跟进。应在事后分析会议结束后立即发送。它只需要一个简短的段落总结事件和指向此维基页面的链接。
简要总结发生了什么以及事后分析页面(此页面)的位置。
外部信息#
这是将在status.pagerduty.com网站上关于此事件的内容。我们告诉客户什么,包括道歉?(道歉应该是真诚的,而不是机械的。)
总结
发生了什么?
我们对此做了什么?