主题专家
如果您在PagerDuty的任何团队中担任待命人员,您可能会被呼叫处理重大事件,并作为您服务的主题专家(SME)被期望做出响应。本页详细介绍了为承担这一责任所需了解的所有信息。如果您有兴趣成为事件指挥官,请查看事件指挥官培训页面。
待命期望#
如果您为您的团队待命,作为待命人员,您有一些特定的期望。这适用于主要和次要待命人员。关于系统中的SEV-3或SEV-4事件的呼叫与重大SEV-2事件的呼叫有不同的期望。
待命前准备#
- 通过已经熟悉我们的应急响应政策和程序来做好准备。特别是,
- 确保您已经设置了警报方式,并且PagerDuty可以绕过您的“请勿打扰”设置。
- 检查您可以加入事件通话。您可能需要安装浏览器插件。您不希望在第一次被呼叫时才做这件事。
- 了解您即将到来的待命时间,并在旅行、假期、预约等安排中进行交换。
- 如果您是事件指挥官,确保您在作为事件指挥官待命时,不要同时为您的团队待命。
待命期间#
- 在您的待命期间,随时携带您的笔记本电脑和互联网(办公室、家中、MiFi、带有共享计划的电话等)。
- 如果您有重要预约,您需要提前让团队中的其他人来覆盖那个时间段。
- 当您收到重大事件的警报时,您应尽快加入事件通话和Slack(几分钟内)。
- 事件指挥官会向您提问或给出行动指示。简洁地回答问题,并遵循所有给出的行动指示(即使您不同意)。
响应动员#
当发生事件时,您必须被动员或指派成为应急响应的一部分。换句话说,直到您通过呼叫或被事件中的其他人直接要求动员到事件中,您仍然处于日常角色。被动员后,您的首要任务是报到并接受任务分配。虽然看到事件发生并想要跳进去帮忙很诱人,但当未被请求的资源出现时,事件管理可能会受到影响。
“绝不犹豫升级”#
如果您不确定某事,完全可以让您团队中您认为对某个系统比您更了解的其他SME加入。不要让您的自尊阻止您寻求额外帮助。我们的座右铭是“绝不犹豫升级”,您永远不会因为不知道如何处理而升级问题而受到轻视。
无责备#
会有事件发生。有些是由您引起的,有些是由他人引起的...有些只是会发生。我们的整个应急响应流程是完全无责备的。责备人是反生产力的,只会分散对当前问题的注意力。无论事件是如何开始的,都需要尽快解决。
战时与平时#
在重大事件期间的行为与您过去可能收到的任何其他警报非常不同。我们称重大事件为“战时”,并将其与正常的日常运营(“平时”)区分开来。
平时#
组织结构通常基于资历。团队中更资深的成员将领导讨论,经理或团队负责人将做出最终决定。在仔细考虑所有选项并最大限度地减少对客户的潜在风险后做出决策。
战时#
战时不同,您会在我们的重大事件通话中注意到不同的组织结构。
- 事件指挥官负责。无论他们在平时的地位如何,他们现在是在通话中地位最高的个人,高于CEO。
- 主要响应者(为团队/服务担任主要待命的人员)是该服务的最高地位个人。
- 决策将由IC在考虑所提供的信息后做出。一旦做出决定,它就是最终的。
- IC可能会做出比平时通常考虑的风险更大的决策。
- 例如,IC可能会决定为特定客户丢弃事件,以保持系统对其他所有人的完整性。
- IC可能会反对共识决策。如果进行投票,9/10人同意但1人不同意。IC可能会选择不同意选项,尽管是多数票。
- 即使您不同意,IC的决定也是最终的。在通话中不是与他们争论的时候。
- IC可能会使用您认为粗鲁的语言或行为。这是战时,他们需要尽一切可能解决问题,所以有时会发生粗鲁行为。这绝不是针对个人的,如果您以前从未经历过战时情况,您应该准备好体验这一点。
- IC可能会要求您离开通话,或者您甚至可能被强制踢出通话。如果IC认为您没有提供有用的输入,他们有权这样做。再次强调,这绝不是针对个人的,您应该记住战时与平时不同。