PagerDuty 的全局事件编排现已普遍可用。Global Event Orchestration 强大的决策引擎丰富了事件,控制它们的路由,并根据事件数据触发自我修复操作。团队可以在 PagerDuty 中的任何或所有服务中使用此功能。此功能是对 Event Orchestration 的持续投资,展示了 PagerDuty 致力于为客户提供一流的自动化功能。
我们的早期访问计划中的客户已经看到了全球事件编排的价值,吹嘘减少的 MTTR 和更好的大规模事件响应标准化。正如 Riskified 的技术主管 Kiril Yurovnik 所说:“随着事件数量的增加,减少噪音和工作量势在必行,尤其是当组织旨在在当前的经济环境中优化其 IT 流程时。我们一直在使用 PagerDuty 的全局事件编排作为早期可用性计划的一部分,结果非常好。Riskified 已经能够扩展降噪,尤其是在非生产环境中,这为我们的团队节省了宝贵的时间,让他们可以花时间在下一步的创新上。”
什么是全局事件编排?
全局事件编排类似于服务事件编排,因为它允许用户定义复杂的规则来确定事件在处理时会发生什么。不同之处在于 Global Event Orchestration 在摄取时丰富了事件。然后,一旦数据被规范化,事件就被路由到基于各种标准的服务。这可确保响应者拥有可能的最佳事件数据来开始响应过程。
全局事件编排具有三个关键组件,可以成功扩展事件响应。
全局编排规则允许用户跨服务对事件应用操作。团队可以创建跨服务处理事件数据的规则,并使用处理后的数据来改进事件路由。这使组织能够建立和改进自动修复。这意味着不需要人参与事件来解决它。这也通过更智能的路由减少了事件的爆炸半径。
增强的集成密钥管理减少了管理不同监控工具的集成密钥的工作量。这允许用户将集成密钥组合到一个事件编排中。更好的是,增强的集成密钥管理现在可用于所有 PagerDuty 计划。
额外的 API允许大规模管理。团队可以将 REST API 用于事件源和全局编排规则管理。这两个 API 都支持 Terraform。这些 API 是对用于事件编排/服务编排管理的 REST API 的补充。
“利用 PagerDuty 的全球事件编排对于确保我们的事件路由流程高效且可扩展以优化 IT 运营和支出至关重要,”Hyland 的云基础设施工程师 Brian Long 说。“借助 Global Event Orchestration,我们的组织能够从我们的通知中检测到“已解决”条件,以作为解决方案执行,并将需要配置这些条件的地方数量减少至少三倍。这让我们有时间专注于创新,而不是配置。”
全局事件编排如何帮助我的团队?
通过全局事件编排,团队将看到:
编码的事件响应流程:在分散的团队中民主化和分发易于理解的事件响应
更少的事件:使用来自生态系统内所有服务的上下文事件数据来提高抑制准确性
更快的解决方案:跨团队应用自动化,并通过标准化的丰富和数据规范化实现大规模的自动化诊断
团队使用全局事件编排的方式可能因组织结构而异。能力与两个不同的团队保持一致:ITOps、SRE 和 NOC 团队以及开发人员团队。
ITOps 团队将能够利用事件规范化功能,确保所有事件看起来都和它们进来时一样。
SRE 团队可以在技术生态系统中的任何或所有服务中创建和扩展自动化。这使得在整个组织中扩展和标准化自动化比以往任何时候都更加容易。
对于 NOC 等 L1 响应团队,全局事件编排可帮助他们处理大量传入的事件浪潮。如果事件符合特定条件,则可以将其路由到 NOC。而且,随着事件通过规则级别和嵌套规则,自动化可以向 L1 响应者提供诊断。如果事件的修复是众所周知的,组织可以创建自动修复。
开发团队将看到更少的事件和更快的解决方案。通过自动修复,甚至可以在事件到达开发人员团队需要的服务之前解决事件。而且,通过深入的路由标准,事件不会在团队之间反弹。如果自动化或 NOC 或 L1 响应者无法解决问题,事件将提交给主题专家 (SME)。而且,当 SME 开始处理事件时,诊断信息已经可用,从而缩短了解决时间。