事件指挥官
所以你想成为一名事件指挥官(IC)?你来对地方了!成为IC不需要是高级团队成员,任何人都可以做到,只要你具备必要的知识(是的,甚至是实习生!)
目的#
如果将事件指挥官的目的浓缩成一句话,那就是:
让事件朝着解决的方向推进。
事件指挥官是在重大事件期间的决策者;通过委派任务并听取主题专家的意见,以解决事件。他们成为任何重大事件通话中最高级别的个人,无论他们在日常工作中的级别如何。他们作为指挥官所做的决定是最终的。
作为事件指挥官,你的工作是听取通话内容并在事件Slack房间中观察,以提供清晰的协调,招募其他人收集上下文/细节。你不应该执行任何操作或修复,检查图表或调查日志。这些任务应该被委派。
IC还应该在每个机会考虑下一步和备用计划,以避免在没有明确选项的情况下卡住,并让事情朝着解决的方向推进。
先决条件#
在你成为事件指挥官之前,预计你将满足以下标准。如果你还没有完全满足这些条件,别担心,你仍然可以继续培训!
- 出色的口头和书面沟通技巧。
- 对PagerDuty服务之间如何相互作用有高层次的了解。
- 能够评估情况的规模,评估各种战术/策略的有效性,并迅速做出决策。
- 具有灵活性,能够听取专家反馈,并根据需要即时修改计划。
- 至少参与过两次重大事件响应,无论是作为旁观者还是积极参与者。
- 具有威严,掌握指挥权,并愿意将人踢出通话以消除干扰,即使是CEO也不例外。
不需要深入的技术知识!
事件指挥官不需要对我们系统的深入技术知识。作为事件指挥官,你的工作是协调响应,而不是进行技术更改。不要因为你不在工程部门就认为自己不能成为事件指挥官!
责任#
阅读我们的不同角色,了解对事件指挥官的期望,以及我们对与你互动的其他角色的期望。
培训过程#
目前的过程相当宽松。以下是你可以进行培训的一些事项:
-
阅读本页的其他部分,特别是下面的章节。
-
参与Failure Friday(FF)。
- 旁听FF,了解其运行方式。
- 多次担任FF的记录员。
- 多次担任FF的事件指挥官。
-
与办公室里的其他人玩一局“Keep Talking and Nobody Explodes”。
- 为了获得更真实的体验,与不同办公室的人通过Hangouts玩。
-
旁听当前事件指挥官至少一整周的轮班。
- 在他们收到警报时加入相同的通话。
- 参加一个活跃的事件通话,跟随聊天内容,并跟随事件指挥官的行动。
- 不要在通话中积极参与,保持你的问题直到最后。
-
反向旁听当前事件指挥官至少一整周的轮班。
- 你应该负责响应事件,并在通话中担任主要角色;然而,当前的IC将在你不知道如何继续时接管。
毕业#
培训中的IC和正式的IC有什么区别?(这不是一个笑话的设置)。很简单,IC将自己加入到日程中。
另外,别忘了在IC Slack频道中宣布自己,并让自己加入我们的IC邮件列表。
处理事件#
每个事件都是不同的(我们希望不会重复同样的问题!),但你可以应用一个共同的过程。每个步骤中使用的语言在下面的“程序和术语”部分中有更详细的讨论。
评估#
评估涉及了解正在发生的事情以及它产生了多大的影响。这是一个信息收集步骤,将允许你稍后做出好的决策。
-
识别症状。- 问“哪里出了问题?”
- 识别症状是什么,并让你的专家提供这些信息。
- 尽可能快地收集尽可能多的信息(记住,在你做这些的时候,事件仍在发生)。
-
识别事件的范围。- 问“这是否影响了多个服务?”
- 识别问题的规模以及它是否正在升级/波动/静止。
- 获取事实,可能发生的事情,以及这些事情发生的概率。
稳定#
下一步是稳定事件。我们需要确定我们可以采取什么措施来修复它,然后执行这些行动。
-
识别可能的行动。- 问“我们可以采取什么行动?它们的风险有多大?”
- 识别任何可以采取的缓解问题的行动。询问你的专家他们想做什么。
- 识别与这些行动相关的风险。
-
做出决策。- 说“我们正在采取...”
- 根据你可用的信息决定采取哪个行动。
- 做出“错误”的决策总比不做决策好。如果你只有糟糕的选项,选择一个并继续前进。
-
获得共识。- 问“有任何强烈的反对意见吗?”
- 收集对计划的