虽然服务中断不可避免,但透明且及时的沟通对于评估当前情况、让利益相关者了解最新动态以及采取行动来尽可能降低对业务的影响至关重要。
运行可靠的云应用是Google Cloud 和应用开发者共同承担的责任。当服务中断时,Google Cloud 旨在快速通报突发事件并提供影响评估。您必须评估如何接收通知、应对突发事件以及管理对应用的影响。
Personalized Service Health 可以帮助您完成此流程。您可以通过各种方式与 Google Cloud集成,以便了解新出现的突发事件、评估对应用的影响,并接收 Google Cloud的最新动态。本文档简要介绍了如何从Google Cloud接收服务中断信号,包括有关如何与这些信号集成的建议。
确定集成位置
Personalized Service Health 可提供您的项目或整个组织所用 Google Cloud 产品的个性化视图。我们建议与个性化服务健康状况集成,以便为您提供最广泛的集成选项。
集成点 | 使用场景 | 优势 | 依赖项 |
控制台信息中心(个性化服务运行状况) | 查看有效的中断 | 默认提供,可根据您的项目进行个性化设置 | Identity and Access Management (IAM) Google Cloud 控制台 |
提醒(个性化服务健康状况) | 主动通知 | 根据您的项目量身定制,方便实用且主动高效 | IAM Cloud Logging Cloud Monitoring |
API(个性化服务健康状况) | 与其他系统或工具集成 | 根据您的项目或组织量身定制 | IAM |
选择与 Personalized Service Health 互动的方式
您必须根据自己的预期运营、监控和突发事件响应模式来考虑 Personalized Service Health。通过评估团队在突发事件发生期间和发生前如何使用信号,您可以决定如何使用 Personalized Service Health。
下表显示了您可能会如何与个性化服务健康状况互动,具体取决于其设置方式。
组织中的示例场景 | 与 Personalized Service Health 集成 | 您可能要集成的工具示例 |
负责少数应用的待命开发者 | 单个项目提醒
控制台信息中心 |
Google Cloud Observability、PagerDuty |
集中式组织突发事件响应 | 使用 OrganizationEvents API(v1、v1beta)与现有系统进行 API 集成 | PagerDuty、自定义信息中心 |
用于管理云资源和运营的内部平台 | Service Health API 单个项目提醒 Service Health API 与内部开发者平台集成 |
Backstage、Terraform |
以编程方式配置和管理的多个项目(例如:1,000 个以上) | Service Health API 基于 API 的自动化通知 |
Backstage、Terraform、PagerDuty |
在突发事件期间使用 Personalized Service Health
与 Personalized Service Health 集成并开始接收提醒通知后,Personalized Service Health 会提供有关 Google Cloud中断的信息,帮助您管理其影响。
检测并确定突发事件的范围
您在此阶段可能会问的问题包括:
- 这是个实际问题吗?
- 您能否验证影响?
- 症状有哪些?
- 哪些用户、产品或业务部分会受到影响?哪些地理位置?
Personalized Service Health 可帮助您了解问题是源自您的项目还是 Google,以便您实施适当的突发事件响应措施。借助此功能,您可以查找和查看活动信息,以便监控活动、受影响的产品以及影响您项目的位置。
您可以采取以下步骤:
- 查看提醒(如果您已设置)。
- 是什么原因触发了此提醒?
- 这些提醒与您可能收到的所有其他特定于产品的提醒有何不同?
- 访问项目或组织的 Service Health”信息中心。您可以一目了然地查看活动、受影响的产品和地点,并回答以下问题:
- 您的哪些项目会受到影响?
- 您的项目所依赖的哪些产品会受到影响?
- 相应事件是否会影响这些位置中的特定资源?
- 查看活动,了解其范围、影响以及与您项目的相关性。
- 找出看起来与您遇到的问题相关的事件。
- 查找相应事件的验证步骤、缓解措施(如有)和预期解决时间。
借助 Personalized Service Health,您可以查看影响您的项目或组织的突发事件的当前状态和影响,以便高效地管理和应对这些事件。例如,您可以准确识别最高优先级的突发事件,从而有效地确定优先级。
缓解、解决或上报突发事件
您在此阶段可能会问的问题包括:
- 如何解决此事件?
- 您可以直接解决此问题吗?
- 您是现在启动故障切换,还是再等一段时间?
- 您应该通知谁来解决此问题?
Personalized Service Health 可帮助您了解突发事件对项目和资源的影响、及时了解可用的解决方法,并接收有关预计解决时间的最新动态。
监控突发事件解决进度
Service Health”信息中心内的事件概览会显示关键信息,例如症状和解决方法(这些信息对于缓解问题至关重要),并显示状态何时发生变化。通过这些详细信息,您可以:
- 随着情况的变化,监控潜在影响的实时摘要。
- 及时了解任何新进展以及下次沟通或更新的预计时间。
- 查看症状的发布时间。
- 了解何时找到解决方法。
- 查看状态何时更改为已解决。
在监控进度时,您可以执行以下操作:
- 查看临时解决方法(如果有)。
- 实施适合您的项目或组织的突发事件响应。
- 继续监控相应事件,直至问题得到缓解或解决。
何时与支持团队联系
Google 会留意 Service Health 信息中心内显示的事件。如需了解 Google 针对某个活动采取的措施,请选择该活动以查看详细信息。
如果某个问题似乎未在信息中心的任何事件中体现出来,请与支持团队联系。
将 Personalized Service Health 与其他突发事件信息来源搭配使用
无论贵公司的设置如何,在评估突发事件的影响时,都可以将 Personalized Service Health 用作额外的信号。确保您可以查看多个来源的突发事件信息,以便根据数据和证据决定后续步骤。
使用多个突发事件信息来源的原因包括:
- Google Cloud 产品可能在某个位置发生突发事件,但您的项目可能不会受到影响,因为它们位于其他位置。
- 如果您的服务系统在不同的可用区中拥有两个完整的副本,并且一个可用区中的关键 Google Cloud 产品发生故障,个性化服务健康状况会通知您该故障。不过,您的用户可能实际上并未受到影响,您可能无需立即采取行动。
- 如果您的项目依赖于某个位置内的许多 Google Cloud 产品,个性化服务健康状况将无法确定:
- 如果您的项目要求所有产品都能正常运行。
- 如果一个产品出现故障,您的项目将继续运行。
- 如果一个或多个产品出现故障,整个应用都会受到影响。
- Personalized Service Health 本身也可能会降级或发生故障。如需验证,您可以查看其状态。
您需要根据自己的设置,适当解读 Personalized Service Health 中的信号。