事件处理

重大事件发生时应采取的行动指南。关于重大事件的定义，请参阅我们的严重级别描述。

文档记录

为了您内部的文档记录，请确保此页面显著展示所有必要信息，例如：电话会议号码、Slack 房间、重要的聊天命令等。以下是一个示例：

#incident-chat	https://a-voip-provider.com/incident-call	+1 555 BIG FIRE (+1 555 244 3473) / PIN: 123456
需要指挥官吗？在 Slack 中执行 `!ic page`
仅限执行摘要更新，加入 #executive-summary-updates。

安全事件？

如果是安全事件，应遵循安全事件响应流程。

不要慌张！#

加入事件通话和聊天（见上文链接）。
- 任何人都可以自由加入通话或聊天，观察并跟进事件。
- 如果您希望参与，则应同时加入通话和聊天。如果由于某些原因无法加入通话，您应指定一个专门的代理加入通话。在聊天室中进行分散的讨论最终会分散注意力。
跟随通话/聊天，添加您认为合适的任何评论，但请保持讨论与当前问题相关。
- 如果您不是主题专家（SME），请尝试通过您服务的主题专家过滤任何讨论。同时有太多人讨论可能会变得难以应付，因此我们应尽可能保持通话的层级结构。
遵循事件指挥官的指示。
- 通话中没有指挥官吗？
  - 通过 Slack 手动呼叫他们，使用 !ic page 在 Slack 中。这将同时呼叫主要和备份指挥官。
  - 不要犹豫呼叫指挥官。有他们在场而无需他们比没有他们在场要好得多。

事件指挥官的步骤#

尽快且尽可能安全地解决事件，使用副指挥官协助您。根据需要将任务委派给相关专家。

在通话和 Slack 中宣布您是事件指挥官，您指定的副指挥官（通常是备份指挥官）和记录员。
确定是否存在明显的事件原因（最近的部署、流量激增等），委派相关专家进行调查，
- 利用通话中的服务专家协助分析。他们应能快速确认原因，但并非总是如此。在原因未明确的情况下，指挥官应决定如何进行。与服务所有者协商，利用他们的知识帮助您。
确定调查和修复行动（回滚、服务限速等），并将行动委派给相关服务专家。通常包括以下内容（显然不是一个详尽的列表），
- 不良部署： 回滚。
- Web 应用程序卡住/崩溃： 进行滚动重启。
- 事件洪水： 验证自动限速是否足够，必要时手动调整。
- 数据中心中断： 验证自动化是否已移除不良数据中心。如果未移除，强制执行。
- 服务性能下降无负载： 收集法医数据（堆转储等），并考虑进行滚动重启。
听取副指挥官关于严重性升级的提示，决定是否需要公开宣布，并相应指示客户联络员。
- 公开宣布由您作为指挥官自行决定。如果您不确定，则公开宣布（“如有疑问，请推文”）。
跟踪您的控制范围。如果响应开始变得更大，或者事件变得更加复杂，考虑分出子团队以获得更有效的响应。
一旦事件恢复或正在积极恢复，您可以宣布事件结束并结束通话。这通常表明当前没有更多对事件有建设性的工作要做。
- 将剩余的非时间敏感讨论转移到 Slack。
- 跟进确保客户联络员公开结束事件。
- 确定任何事后清理工作。
- 您可能需要进行事后回顾/分析，以确定潜在的贡献因素。
通话结束后，您可以开始遵循事件后的步骤。

副指挥官的步骤#

您在那里支持指挥官，满足他们的需求。

监控事件状态，并在事件严重性升级时通知指挥官。
遵循事件指挥官的指示。
通话结束后，您可以开始遵循事件后的步骤。

记录员的步骤#

您在那里记录 Slack 中事件的关键信息。

在 Slack 房间中更新谁是指挥官，谁是副指挥官，以及您是记录员（如果尚未完成）。
- 例如：“指挥官：Bob Boberson，副指挥官：Deputy Deputyson，记录员：Writer McWriterson”
启动我们的状态监控机器人，以便所有响应者无需询问即可看到当前状态。
- OfficerURL 可以帮助您在 Slack 上监控状态，
  - !status - 将告诉您当前状态。
  - !status stalk - 将持续监控状态并向房间每 30 秒报告一次。
在采取重大行动或确定发现时，应在 Slack 中添加笔记。您无需等待指挥官指示这一点 - 使用您自己的判断。
- 还应在 Slack 房间中添加 TODO 笔记，指示稍后安排的跟进。
遵循事件指挥官的指示。
通话结束后，您可以开始遵循事件后的步骤。

主题专家的步骤#

您在那里支持事件指挥官，确定事件原因，提出并评估修复行动，并执行修复行动。

通过分析您可用的任何图表或日志来调查事件。向事件指挥官宣布所有发现。
- 如果您不确定原因，那也没关系。只需声明您正在调查，并向指挥官提供定期更新。
向事件指挥官宣布所有解决建议，由他们决定如何进行，除非被告知这样做，否则不要采取任何行动！
遵循事件指挥官的指示。
通话结束后，您可以开始遵循事件后的步骤。

客户联络员的步骤#

准备好发布与事件相关的面向公众的消息。

您通常需要在通话期间的某些时候更新状态页面，并从我们的各个账户发送推文。
遵循事件指挥官的指示。
通话结束后，您可以开始遵循事件后的步骤。

内部联络员的步骤#

您在那里向内部利益相关者提供更新，并在必要时动员额外的内部响应者。

准备好根据事件指挥官的指示呼叫其他人。
根据需要通知内部利益相关者，并向 PagerDuty 事件添加订阅者。我们有预定义的团队，如“SEV-1 利益相关者”和“SEV-2 利益相关者”可以使用。
在 Slack 中向执行团队提供定期状态更新（大约每 30 分钟），提供当前状态的执行摘要。保持简短和重点，并使用 @here。
遵循事件指挥官的指示。
通话结束后，您可以开始遵循事件后的步骤。