事件处理
重大事件发生时应采取的行动指南。关于重大事件的定义,请参阅我们的严重级别描述。
文档记录
为了您内部的文档记录,请确保此页面显著展示所有必要信息,例如:电话会议号码、Slack 房间、重要的聊天命令等。以下是一个示例:
#incident-chat | https://a-voip-provider.com/incident-call | +1 555 BIG FIRE (+1 555 244 3473) / PIN: 123456 |
需要指挥官吗?在 Slack 中执行 !ic page |
||
仅限执行摘要更新,加入 #executive-summary-updates。 |
安全事件?
如果是安全事件,应遵循安全事件响应流程。
不要慌张!#
-
加入事件通话和聊天(见上文链接)。
- 任何人都可以自由加入通话或聊天,观察并跟进事件。
- 如果您希望参与,则应同时加入通话和聊天。如果由于某些原因无法加入通话,您应指定一个专门的代理加入通话。在聊天室中进行分散的讨论最终会分散注意力。
-
跟随通话/聊天,添加您认为合适的任何评论,但请保持讨论与当前问题相关。
- 如果您不是主题专家(SME),请尝试通过您服务的主题专家过滤任何讨论。同时有太多人讨论可能会变得难以应付,因此我们应尽可能保持通话的层级结构。
-
遵循事件指挥官的指示。
- 通话中没有指挥官吗?
- 通过 Slack 手动呼叫他们,使用
!ic page
在 Slack 中。这将同时呼叫主要和备份指挥官。 - 不要犹豫呼叫指挥官。有他们在场而无需他们比没有他们在场要好得多。
- 通过 Slack 手动呼叫他们,使用
- 通话中没有指挥官吗?
事件指挥官的步骤#
尽快且尽可能安全地解决事件,使用副指挥官协助您。根据需要将任务委派给相关专家。
-
在通话和 Slack 中宣布您是事件指挥官,您指定的副指挥官(通常是备份指挥官)和记录员。
-
确定是否存在明显的事件原因(最近的部署、流量激增等),委派相关专家进行调查,
- 利用通话中的服务专家协助分析。他们应能快速确认原因,但并非总是如此。在原因未明确的情况下,指挥官应决定如何进行。与服务所有者协商,利用他们的知识帮助您。
-
确定调查和修复行动(回滚、服务限速等),并将行动委派给相关服务专家。通常包括以下内容(显然不是一个详尽的列表),
- 不良部署: 回滚。
- Web 应用程序卡住/崩溃: 进行滚动重启。
- 事件洪水: 验证自动限速是否足够,必要时手动调整。
- 数据中心中断: 验证自动化是否已移除不良数据中心。如果未移除,强制执行。
- 服务性能下降无负载: 收集法医数据(堆转储等),并考虑进行滚动重启。
-
听取副指挥官关于严重性升级的提示,决定是否需要公开宣布,并相应指示客户联络员。
- 公开宣布由您作为指挥官自行决定。如果您不确定,则公开宣布(“如有疑问,请推文”)。
-
一旦事件恢复或正在积极恢复,您可以宣布事件结束并结束通话。这通常表明当前没有更多对事件有建设性的工作要做。
- 将剩余的非时间敏感讨论转移到 Slack。
- 跟进确保客户联络员公开结束事件。
- 确定任何事后清理工作。
- 您可能需要进行事后回顾/分析,以确定潜在的贡献因素。
-
通话结束后,您可以开始遵循事件后的步骤。
副指挥官的步骤#
您在那里支持指挥官,满足他们的需求。
-
监控事件状态,并在事件严重性升级时通知指挥官。
-
遵循事件指挥官的指示。
-
通话结束后,您可以开始遵循事件后的步骤。
记录员的步骤#
您在那里记录 Slack 中事件的关键信息。
-
在 Slack 房间中更新谁是指挥官,谁是副指挥官,以及您是记录员(如果尚未完成)。
- 例如:“指挥官:Bob Boberson,副指挥官:Deputy Deputyson,记录员:Writer McWriterson”
-
启动我们的状态监控机器人,以便所有响应者无需询问即可看到当前状态。
- OfficerURL 可以帮助您在 Slack 上监控状态,
!status
- 将告诉您当前状态。!status stalk
- 将持续监控状态并向房间每 30 秒报告一次。
- OfficerURL 可以帮助您在 Slack 上监控状态,
-
在采取重大行动或确定发现时,应在 Slack 中添加笔记。您无需等待指挥官指示这一点 - 使用您自己的判断。
- 还应在 Slack 房间中添加
TODO
笔记,指示稍后安排的跟进。
- 还应在 Slack 房间中添加
-
遵循事件指挥官的指示。
-
通话结束后,您可以开始遵循事件后的步骤。
主题专家的步骤#
您在那里支持事件指挥官,确定事件原因,提出并评估修复行动,并执行修复行动。
-
通过分析您可用的任何图表或日志来调查事件。向事件指挥官宣布所有发现。
- 如果您不确定原因,那也没关系。只需声明您正在调查,并向指挥官提供定期更新。
-
向事件指挥官宣布所有解决建议,由他们决定如何进行,除非被告知这样做,否则不要采取任何行动!
-
遵循事件指挥官的指示。
-
通话结束后,您可以开始遵循事件后的步骤。
客户联络员的步骤#
准备好发布与事件相关的面向公众的消息。
-
您通常需要在通话期间的某些时候更新状态页面,并从我们的各个账户发送推文。
-
遵循事件指挥官的指示。
-
通话结束后,您可以开始遵循事件后的步骤。
内部联络员的步骤#
您在那里向内部利益相关者提供更新,并在必要时动员额外的内部响应者。
-
准备好根据事件指挥官的指示呼叫其他人。
-
根据需要通知内部利益相关者,并向 PagerDuty 事件添加订阅者。我们有预定义的团队,如“SEV-1 利益相关者”和“SEV-2 利益相关者”可以使用。
-
在 Slack 中向执行团队提供定期状态更新(大约每 30 分钟),提供当前状态的执行摘要。保持简短和重点,并使用
@here
。 -
遵循事件指挥官的指示。
-
通话结束后,您可以开始遵循事件后的步骤。