事件处理

重大事件发生时应采取的行动指南。关于重大事件的定义,请参阅我们的严重级别描述

文档记录

为了您内部的文档记录,请确保此页面显著展示所有必要信息,例如:电话会议号码、Slack 房间、重要的聊天命令等。以下是一个示例:

#incident-chat https://a-voip-provider.com/incident-call +1 555 BIG FIRE (+1 555 244 3473) / PIN: 123456
需要指挥官吗?在 Slack 中执行 !ic page
仅限执行摘要更新,加入 #executive-summary-updates

安全事件?

如果是安全事件,应遵循安全事件响应流程。

不要慌张!#

  1. 加入事件通话和聊天(见上文链接)。

    • 任何人都可以自由加入通话或聊天,观察并跟进事件。
    • 如果您希望参与,则应同时加入通话和聊天。如果由于某些原因无法加入通话,您应指定一个专门的代理加入通话。在聊天室中进行分散的讨论最终会分散注意力。
  2. 跟随通话/聊天,添加您认为合适的任何评论,但请保持讨论与当前问题相关。

    • 如果您不是主题专家(SME),请尝试通过您服务的主题专家过滤任何讨论。同时有太多人讨论可能会变得难以应付,因此我们应尽可能保持通话的层级结构。
  3. 遵循事件指挥官的指示。

    • 通话中没有指挥官吗?
      • 通过 Slack 手动呼叫他们,使用 !ic page 在 Slack 中。这将同时呼叫主要和备份指挥官。
      • 不要犹豫呼叫指挥官。有他们在场而无需他们比没有他们在场要好得多。

事件指挥官的步骤#

尽快且尽可能安全地解决事件,使用副指挥官协助您。根据需要将任务委派给相关专家。

  1. 在通话和 Slack 中宣布您是事件指挥官,您指定的副指挥官(通常是备份指挥官)和记录员。

  2. 确定是否存在明显的事件原因(最近的部署、流量激增等),委派相关专家进行调查,

    • 利用通话中的服务专家协助分析。他们应能快速确认原因,但并非总是如此。在原因未明确的情况下,指挥官应决定如何进行。与服务所有者协商,利用他们的知识帮助您。
  3. 确定调查和修复行动(回滚、服务限速等),并将行动委派给相关服务专家。通常包括以下内容(显然不是一个详尽的列表),

    • 不良部署: 回滚。
    • Web 应用程序卡住/崩溃: 进行滚动重启。
    • 事件洪水: 验证自动限速是否足够,必要时手动调整。
    • 数据中心中断: 验证自动化是否已移除不良数据中心。如果未移除,强制执行。
    • 服务性能下降无负载: 收集法医数据(堆转储等),并考虑进行滚动重启。
  4. 听取副指挥官关于严重性升级的提示,决定是否需要公开宣布,并相应指示客户联络员。

    • 公开宣布由您作为指挥官自行决定。如果您不确定,则公开宣布(“如有疑问,请推文”)。
  5. 跟踪您的控制范围。如果响应开始变得更大,或者事件变得更加复杂,考虑分出子团队以获得更有效的响应。

  6. 一旦事件恢复或正在积极恢复,您可以宣布事件结束并结束通话。这通常表明当前没有更多对事件有建设性的工作要做。

    • 将剩余的非时间敏感讨论转移到 Slack。
    • 跟进确保客户联络员公开结束事件。
    • 确定任何事后清理工作。
    • 您可能需要进行事后回顾/分析,以确定潜在的贡献因素。
  7. 通话结束后,您可以开始遵循事件后的步骤。

副指挥官的步骤#

您在那里支持指挥官,满足他们的需求。

  1. 监控事件状态,并在事件严重性升级时通知指挥官。

  2. 遵循事件指挥官的指示。

  3. 通话结束后,您可以开始遵循事件后的步骤。

记录员的步骤#

您在那里记录 Slack 中事件的关键信息。

  1. 在 Slack 房间中更新谁是指挥官,谁是副指挥官,以及您是记录员(如果尚未完成)。

    • 例如:“指挥官:Bob Boberson,副指挥官:Deputy Deputyson,记录员:Writer McWriterson”
  2. 启动我们的状态监控机器人,以便所有响应者无需询问即可看到当前状态。

    • OfficerURL 可以帮助您在 Slack 上监控状态,
      • !status - 将告诉您当前状态。
      • !status stalk - 将持续监控状态并向房间每 30 秒报告一次。
  3. 在采取重大行动或确定发现时,应在 Slack 中添加笔记。您无需等待指挥官指示这一点 - 使用您自己的判断。

    • 还应在 Slack 房间中添加 TODO 笔记,指示稍后安排的跟进。
  4. 遵循事件指挥官的指示。

  5. 通话结束后,您可以开始遵循事件后的步骤。

主题专家的步骤#

您在那里支持事件指挥官,确定事件原因,提出并评估修复行动,并执行修复行动。

  1. 通过分析您可用的任何图表或日志来调查事件。向事件指挥官宣布所有发现。

    • 如果您不确定原因,那也没关系。只需声明您正在调查,并向指挥官提供定期更新。
  2. 向事件指挥官宣布所有解决建议,由他们决定如何进行,除非被告知这样做,否则不要采取任何行动!

  3. 遵循事件指挥官的指示。

  4. 通话结束后,您可以开始遵循事件后的步骤。

客户联络员的步骤#

准备好发布与事件相关的面向公众的消息。

  1. 您通常需要在通话期间的某些时候更新状态页面,并从我们的各个账户发送推文。

  2. 遵循事件指挥官的指示。

  3. 通话结束后,您可以开始遵循事件后的步骤。

内部联络员的步骤#

您在那里向内部利益相关者提供更新,并在必要时动员额外的内部响应者。

  1. 准备好根据事件指挥官的指示呼叫其他人。

  2. 根据需要通知内部利益相关者,并向 PagerDuty 事件添加订阅者。我们有预定义的团队,如“SEV-1 利益相关者”和“SEV-2 利益相关者”可以使用。

  3. 在 Slack 中向执行团队提供定期状态更新(大约每 30 分钟),提供当前状态的执行摘要。保持简短和重点,并使用 @here

  4. 遵循事件指挥官的指示。

  5. 通话结束后,您可以开始遵循事件后的步骤。