事件指挥官

所以你想成为一名事件指挥官(IC)?你来对地方了!成为IC不需要是高级团队成员,任何人都可以做到,只要你具备必要的知识(是的,甚至是实习生!)

目的#

如果将事件指挥官的目的浓缩成一句话,那就是:

让事件朝着解决的方向推进。

事件指挥官是在重大事件期间的决策者;通过委派任务并听取主题专家的意见,以解决事件。他们成为任何重大事件通话中最高级别的个人,无论他们在日常工作中的级别如何。他们作为指挥官所做的决定是最终的。

作为事件指挥官,你的工作是听取通话内容并在事件Slack房间中观察,以提供清晰的协调,招募其他人收集上下文/细节。你不应该执行任何操作或修复,检查图表或调查日志。这些任务应该被委派。

IC还应该在每个机会考虑下一步和备用计划,以避免在没有明确选项的情况下卡住,并让事情朝着解决的方向推进。

先决条件#

在你成为事件指挥官之前,预计你将满足以下标准。如果你还没有完全满足这些条件,别担心,你仍然可以继续培训!

不需要深入的技术知识!

事件指挥官不需要对我们系统的深入技术知识。作为事件指挥官,你的工作是协调响应,而不是进行技术更改。不要因为你不在工程部门就认为自己不能成为事件指挥官!

责任#

阅读我们的不同角色,了解对事件指挥官的期望,以及我们对与你互动的其他角色的期望。

培训过程#

目前的过程相当宽松。以下是你可以进行培训的一些事项:

毕业#

培训中的IC和正式的IC有什么区别?(这不是一个笑话的设置)。很简单,IC将自己加入到日程中。

另外,别忘了在IC Slack频道中宣布自己,并让自己加入我们的IC邮件列表。

处理事件#

每个事件都是不同的(我们希望不会重复同样的问题!),但你可以应用一个共同的过程。每个步骤中使用的语言在下面的“程序和术语”部分中有更详细的讨论。

处理事件

评估#

评估涉及了解正在发生的事情以及它产生了多大的影响。这是一个信息收集步骤,将允许你稍后做出好的决策。

  1. 识别症状。- 问“哪里出了问题?”

    • 识别症状是什么,并让你的专家提供这些信息。
    • 尽可能快地收集尽可能多的信息(记住,在你做这些的时候,事件仍在发生)。
  2. 识别事件的范围。- 问“这是否影响了多个服务?”

    • 识别问题的规模以及它是否正在升级/波动/静止。
    • 获取事实,可能发生的事情,以及这些事情发生的概率。

稳定#

下一步是稳定事件。我们需要确定我们可以采取什么措施来修复它,然后执行这些行动。

  1. 识别可能的行动。- 问“我们可以采取什么行动?它们的风险有多大?”

    • 识别任何可以采取的缓解问题的行动。询问你的专家他们想做什么。
    • 识别与这些行动相关的风险。
  2. 做出决策。- 说“我们正在采取...”

    • 根据你可用的信息决定采取哪个行动。
    • 做出“错误”的决策总比不做决策好。如果你只有糟糕的选项,选择一个并继续前进。
  3. 获得共识。- 问“有任何强烈的反对意见吗?”

    • 收集对计划的