不同角色

PagerDuty 的事故响应团队有几种主要角色。某些角色在每次事故中只有一个人(例如 IC),而其他角色可以有多个人(例如主题专家,SME)。关键在于作为一个团队共同努力,解决问题,并迅速找到解决方案。

以下是我们角色层次的大致概述,每个角色将在本页其余部分详细讨论。

事故响应结构

在处理更大更复杂的事故时,角色结构可能会调整,以适应子团队的创建。更多信息请阅读我们如何处理复杂事故

灵活结构

并不是每次事故都需要每个角色由不同的人来担任。例如,如果事故的范围足够小,副指挥官可能也会承担记录员和内部联络员的职责。结构应该是灵活的,并根据事故的大小和范围进行调整。


事故指挥官 (IC)#

是什么?#

事故指挥官在重大事故期间充当当前发生情况和即将发生情况的唯一真实来源。他们来自各种背景,形态和颜色。

为什么需要?#

随着任何软件系统的大小和复杂性增加,事情会出错并导致事故。事故指挥官需要帮助推动重大事故解决。

职责是什么?#

  1. 帮助准备重大事故,
    • 为重大事故设置通信渠道。
    • 在发生重大事故时引导人们到这些通信渠道。
    • 培训团队成员如何在重大事故期间沟通,并培训其他事故指挥官。
  2. 推动重大事故解决,
    • 让所有人都在同一个通信渠道上。
    • 从团队成员那里收集他们服务/所有权区域的状态信息。
    • 收集提议的修复行动,然后推荐采取的修复行动。
    • 委派所有修复行动,事故指挥官不是解决者。
    • 成为系统状态的单一权威
  3. 重大事故期间的沟通,
    • 及时提醒客户联络员在需要时起草外部沟通信息。
    • 审查,提供反馈并批准起草的外部沟通
    • 要求客户联络员发布审查过的外部沟通草案
    • 询问所有响应者是否有强烈反对发布外部沟通的做法是好的,但不是强制性的
    • 如果客户没有受到影响,重大事故被证明是误报,批准移除临时调查信息
    • 如果客户联络员无法在状态页面上发布信息,IC 负责委派某人在其位置上公开发布。
  4. 事后回顾,
    • 在事故后立即创建初始模板,以便人们在新鲜时可以放入他们的想法。
    • 在事件结束后分配事后回顾,这可以在通话后完成。
    • 与团队领导/经理一起安排预防行动。

他们是谁?#

任何在事故指挥官待命计划上的人。受训者通常在事故指挥官影子计划上。

如何成为?#

查看我们的事故指挥官培训指南


副指挥官#

是什么?#

副指挥官是事故指挥官的直接支持角色。这不是一个观察者的影子角色。副指挥官在事故期间需要执行重要任务。

为什么需要?#

IC 需要专注于手头的问题,而不是担心记录步骤或监控计时器。副指挥官帮助支持 IC 并让他们专注于事故。

职责是什么?#

副指挥官需要:

  1. 向事故指挥官提出可能未被注意的问题(关注已启动的计时器,回顾呼叫中遗漏的项目等)。
  2. 成为“热备用”事故指挥官,如果主要需要过渡到 SME,或其他原因需要离开 IC 角色。
  3. 管理事故通话,并准备好在事故指挥官指示下移除通话中的人员。

他们是谁?#

任何事故指挥官都可以担任副指挥官。副指挥官需要接受事故指挥官的培训,因为他们可能需要接管指挥。

如何成为?#

查看我们的副指挥官培训指南。副指挥官也需要接受事故指挥官的培训


记录员#

是什么?#

记录员记录事故进展的时间线,并确保所有重要决策和数据都被捕获以供后续审查。

为什么需要?#

事故指挥官需要专注于手头的问题,主题专家需要专注于解决事故。捕获事件发生的时间线非常重要,以便在事后回顾中审查我们的表现,并准确确定我们当时可能没有注意到的任何额外影响。

职责是什么?#

记录员需要:

  1. 确保事故通话被记录。
  2. 在 Slack 中记录重要数据,事件和行动,具体如下:
    • 关键行动(例如:“prod-server-387723 正在重启以尝试移除卡住的锁”)
    • 状态报告(例如:“我们处于 SEV-1,服务 A 目前由于卡住的锁而未处理事件,X 正在重启应用堆栈,下一次检查在 3 分钟内”)
    • 任何关键呼叫或在结束审查时的呼叫(例如:“注意:(Bob B)我们应该有一个更好的方法来确定卡住的锁。”)

他们是谁?#

任何人都可以在事故期间担任记录员,并在通话开始时由事故指挥官选择。通常副指挥官会担任记录员,但这不一定需要发生,对于更大的事故可能不现实。

如何成为?#

遵循我们的记录员培训指南,然后通知事故指挥官您希望在下一次事故中被考虑担任记录员。


主题专家#

是什么?#

主题专家(SME),有时称为“解决者”,是 PagerDuty 软件堆栈中某个组件或服务领域的专家或指定所有者。

为什么需要?#

IC 和副指挥官不是无所不知的超人。当服务出现问题时,需要该服务的专家能够快速帮助识别和修复问题。

职责是什么?#

  1. 能够诊断服务中的常见问题。
  2. 能够快速修复事故中发现的问题。
  3. 简洁的沟通技巧,特别是对于 CAN 报告:
    • 条件:服务的当前状态是什么?它是否健康?
    • 行动:如果服务不健康,需要采取什么行动?
    • 需求:解决者需要什么支持来执行行动?

他们是谁?#

任何被认为是“领域专家”的人都可以在事故中担任解决者。通常服务的初级待命人员将担任该服务的 SME。

如何成为?#

查看我们的主题专家培训指南。您还应该与您的团队和服务所有者讨论,以确定您特定服务的要求。


客户联络员#

是什么?#

负责与客户互动的人,无论是直接互动,还是通过我们的公共沟通渠道。通常是客户支持团队的成员。

为什么需要?#

所有其他角色将积极致力于识别原因并解决问题,我们需要一个专注于客户互动方面的角色,以便能够正确地完成这项工作,并给予应有的关注和照顾。

职责是什么?#

  1. 在需要时起草外部沟通信息,选择适当的模板,无论是由 IC 要求还是自行发起
  2. 如果需要,请求更多信息/澄清以进行清晰沟通
  3. 定期通知 IC 报告受事故影响的客户数量。这可以包括提供特定客户参考或示例以供调查目的。
  4. 在 IC 批准后发布任何关于事故的公开信息(Twitter,StatusPage 等)
  5. 在 IC 批准后移除临时调查信息
  6. 在事后回顾完成后向客户提供外部信息。

他们是谁?#

任何支持团队的成员都可以担任客户联络员。

如何成为?#

遵循我们的客户联络员培训指南,并与支持团队讨论成为我们的下一个客户联络员。

如何了解更多关于外部沟通的信息?#

查看我们的外部沟通指南


内部联络员#

是什么?#

负责与内部利益相关者互动的人。无论是通知内部团队事故,还是在组织内动员其他响应者。

为什么需要?#

对于更大的事故,我们可能会有组织内多个团队参与。拥有一个专门的联络员来动员这些团队并让他们跟上速度,可以让其他响应者处理事故。

职责是什么?#

  1. 根据事故指挥官的指示呼叫 SME 或其他待命工程师。
  2. 根据事故指挥官的指示通知组织内的其他团队(例如财务,法律,营销)。
  3. 与利益相关者联络并提供必要的状态更新。
  4. 与内部利益相关者互动,回答他们的问题,以保持主要通话不受干扰。

他们是谁?#

任何在事故响应期间由事故指挥官指定的人。

如何成为?#

遵循我们的内部联络员培训