事件后处理

重大事件后的应对措施信息。我们的后续行动和事后审查程序。

响应角色的后续行动#

除了从事件中直接产生的任何后续项目外,我们的每个响应角色都有一些标准的后续任务。这些通常是轻量级的行动,确保我们组织信息并与客户适当跟进。

事件指挥官的步骤#

  1. 在PagerDuty中更新事件。

    • 将任何相关事件归入主要事件下。
    • 设置事件的最终严重性。
    • 解决事件。
  2. 创建事后分析报告,并为该事件的事后分析分配负责人。

  3. 向相关利益相关者发送内部电子邮件,解释我们发生了事件,并提供事后分析报告的链接。

  4. 偶尔检查事后分析的进展,确保其在期望的时间框架内完成。

副指挥官的步骤#

事件解决后没有额外的步骤。然而,事件指挥官可能会要求你协助他们的步骤。

记录员的步骤#

  1. 审查聊天通信,并从关键事件中提取任何相关项目。

  2. 收集所有TODO项,并将其添加到事后分析中。

主题专家的步骤#

  1. 添加你认为对事后分析相关的任何笔记。

客户联络员的步骤#

  1. 回复我们收到的关于该事件的任何客户咨询。

  2. 跟踪事后分析的进展,并在外部消息可用时更新我们的状态页面。

内部联络员的步骤#

事件解决后没有额外的步骤。然而,事件指挥官可能会要求你协助回答内部利益相关者的问题。

审查事件#

详细审查事件非常重要,以确切了解出了什么问题,为什么会出问题,以及我们如何确保它不再发生。这些有很多名称;事后审查、事件审查、后续审查等。我们使用术语事后分析。

你可以阅读我们关于事后分析流程的所有内容,其中对此进行了更详细的介绍。

审查流程#

除了审查事件外,审查我们的流程也很重要。我们处理事件的方式是否得当,或者我们是否有可以做得更好的地方?

这种审查目前还不是非常正式,通常涉及几位事件指挥官一起讨论我们可能采取的不同做法,或者我们是否可以对事件响应流程进行任何调整。

如果你对参加这些会议感兴趣,只需告知其中一位事件指挥官,我们一定会邀请你。