事后分析模板

这是我们在PagerDuty进行事后分析时使用的标准模板。每个部分都描述了您希望在该部分中包含的信息类型。


指南

此页面旨在在任何事件发生后的5个工作日内安排的事后分析会议期间进行审查。 您的第一步应该是在事件发生后的5个工作日内,在共享日历上安排事后分析会议。 不要等到填写完信息后再安排会议。确保在会议前完成页面。

事后分析负责人: 您的名字放在这里。

会议安排日期: 在“事件事后分析会议”共享日历上安排会议,在事件发生后的5个工作日内。将日期/时间放在这里。

通话录音: 指向事件通话录音的链接。

概述#

包括一两句总结贡献因素、时间线摘要和影响的简短句子。例如:“8月99日上午,由于我们的主数据库机器上的失控进程,我们遭受了1分钟的SEV-1。这种缓慢导致在此期间开始的约0.024%的警报未能在服务水平协议(SLA)内送达。”

发生了什么#

简要描述发生了什么。

贡献因素#

描述任何导致问题的条件。如果采取了任何加剧问题的行动,也请在此处包括,目的是从解决过程中犯的错误中学习。

解决办法#

描述解决了问题的方法。如果有临时修复措施,请描述该措施以及长期解决方案。

影响#

在这里要非常具体,并包括确切的数字。

处于SEV-1的时间 ?分钟
处于SEV-2的时间 ?分钟
超出SLA送达的通知 ??% (?? of ??)
丢弃/未接受的事件 ??% (?? of ??) 通常应为0,但始终检查
受影响的账户 ??
受影响的用户 ??
提出的支持请求 ?? 包括任何相关的工单链接

响应者#

时间线#

包括一些重要的时间点:(1)贡献因素开始的时间,(2)页面触发的时间,(3)状态页面更新的时间(即事件公开的时间),(4)任何重要行动的时间,(5)SEV-2/1结束的时间,(6)显示如何确定时间戳的工具/日志链接。

时间 (UTC) 事件 数据链接

我们做得如何?#

做得好的地方?#

做得不好的地方?#

行动项#

每个行动项应以JIRA工单的形式出现,每个工单应具有相同的两个标签:“sev1_YYYYMMDD”(例如sev1_20150911)和简单的“sev1”。包括以下行动项:(1)任何防止未来贡献因素所需的修复,(2)任何有助于在问题再次出现时减轻问题的准备任务,(3)剩余的事后分析步骤,如内部邮件,以及状态页面的公开帖子,(4)我们事件响应流程的任何改进。

信息传递#

内部邮件#

这是对员工的跟进。应在事后分析会议结束后立即发送。它只需要一个简短的段落总结事件和指向此维基页面的链接。

简要总结发生了什么以及事后分析页面(此页面)的位置。

外部信息#

这是将在status.pagerduty.com网站上关于此事件的内容。我们告诉客户什么,包括道歉?(道歉应该是真诚的,而不是机械的。)

总结

发生了什么?

我们对此做了什么?