入门指南

入门指南

如果您还没有在自己的组织中建立流程,或者刚刚开始,您可能会发现这份文档中的信息量之大令人不知所措。重要的是要记住,这不是您能在一夜之间就能实施的事情。这是一个应该随着时间逐步建立起来的过程。虽然我们花了数年时间才达到这个阶段,但我们希望您能利用这份文档,跳过我们经历的一些尴尬的成长痛苦,以最有效的方式达到一个更成熟的事件响应流程。

为此,我们编写了这份“入门指南”,以帮助您了解我们流程中最关键的部分,并提供一些关于我们应该从哪些方面开始的指导。如果您刚刚开始建立自己的事件响应流程,这是一个很好的方式来了解我们认为您应该按照什么顺序进行操作。

定义什么是您认为的“事件”和“重大事件”。#

您不必使用我们的定义,它们只是一个起点。您可以自由地提出任何您想要的定义。关键是定义应该是一个简短、简单的陈述,确保每个人都在同一页上。目标是消除在响应过程中关于某事是否是事件的讨论。如果您有一个可用的指标(例如,“如果错误超过每分钟100次,就是重大事件”),那就太好了。如果没有,也不要因此停止定义什么是重大事件。

这一步应该是您的第一步,因为您无法响应一个您不知道是什么的事件。如果一个人认为某事是事件,而组织中的其他人则不这么认为,这将在任何形式的事件响应中造成模糊和混乱。有一个清晰的定义,并向整个组织传达,确保每个人都有相同的理解,并防止任何混淆。

那么严重性级别呢?

您在开始时不需要担心严重性级别——只需确定某事是否是事件。您可以在稍后完善您的响应流程时添加严重性级别。

确定如何动员响应者。#

什么会触发您的事件响应流程?它将是一个与指标相关联的自动警报吗?这是一个很好的起点,即使它只是一个发送给一组响应者的单一警报。

有一个手动触发事件响应的方法。

当人们发现问题时,有一个手动触发事件响应的方法将有助于提高您的响应时间。我们花了一段时间才做到这一点,但如果我们能回到过去,我们会从一开始就这样做!

确保设置一个专门用于事件响应的电话桥和聊天室。您希望提前准备好这些,并确保号码和连接信息被记录下来并与可能需要响应的任何人共享。您不希望在试图响应事件时设置电话和聊天室。您应该使电话和房间名称保持静态或尽可能容易发现。

您还需要为您的响应者设定期望。确保他们知道如果他们被呼叫,他们需要加入电话和聊天室,而不应该直接跳入解决问题。

最后,您要确保您的警报是可操作的。没有什么比为了无法控制的事情而唤醒所有人更糟糕的了。确保任何将触发您的事件响应并呼叫人们的警报都是需要立即人为干预来解决的事情。

定义事件响应角色。#

您最初只需要关注事件指挥官角色。如果您有足够的人,您也可以有一个记录员。但一开始,只需有一个事件指挥官和您的响应者。事件指挥官不应该采取任何修复行动,他们应该只是领导响应并做出决策。您不需要从一开始就遵循整个培训指南;只需询问问题和分配任务的基本知识就足够让您开始了。

创建一个事后回顾模板。#

您可以使用我们的模板开始,或者提出您自己的版本。只需确保您有一个结构化的模板,以便更容易比较不同的事件。它可以从三个标题开始:

  1. 发生了什么?
  2. 为什么会发生?
  3. 我们如何确保它不再发生?

稍后可以添加更多详细的字段和信息。

命名并不重要

您不需要称它们为“事后回顾”。行动后审查、学习回顾、回顾等都是有效的名称。关键是您回顾发生了什么并从中学习。您给这个过程的名称并不真正重要。

练习#

运行一个假想的事件,动员您的响应者,并让某人充当事件指挥官。习惯从日常操作切换到事件的紧急操作。一开始切换到由事件指挥官主导可能会有些突兀,所以在低风险的情况下练习它是有帮助的。

玩一场“保持通话,无人爆炸”是一个轻松的方式来练习事件响应所需的技能。您也可以运行您自己的“失败星期五”版本,手动向系统注入一些故障,并将其视为重大事件。

用于真实事件。#

一旦您有了基本的东西,您就可以开始将流程用于真实事件。您使用的越多,它就会变得越自然。随着您越来越多地使用它,您可以添加更多的流程,并根据需要进行调整。第一次可能不会顺利,但不要放弃!

接下来是什么?#

您现在可以开始扩展您的流程并添加更多内容。以下是我们对您应该接下来包含的内容的建议:

如果您还没有,添加一个记录员。#

当您想要回顾您的事件时,保持事件的准确时间线变得非常重要。记录员应该是您接下来开始使用的角色。

扩展您的IC轮换。#

您不希望只有一个IC,您希望尽可能多。开始培训更多的人,并为IC创建一个轮换。一开始,您可能会使用每周轮换。我们建议尽快尝试每天轮换。

添加一个副手作为角色。#

一旦您有了几个更多的IC,开始在您的响应中添加一个副手。有一个副手将使您能够在长时间事件中快速交接,并为IC在短时间事件中提供一些备份。

定义严重性级别。#

一旦您的流程运行良好,您可以开始为您的响应和事件定义添加更多细节。也许您不想为某些事件进行“全面”响应。定义一些严重性级别来记录您想要的响应级别。

开始添加其他角色。#

随着您的流程变得更加成熟,您希望开始添加其他角色。我们建议下一个包含的是客户联络

练习,练习,练习。#

再怎么强调练习您的事件响应有多么重要也不为过。如果您触发事件响应并意识到它并不是真正的事件,也请将其视为一个事件。您已经动员了您的响应者,所以这实际上是免费的练习。

定义一个处理更大事件的流程。#

我们称之为复杂事件。您不会经常使用这个,但您会希望提前准备好电话桥号码和聊天室。您还需要确保您的响应者了解这个流程。