Integração com o Personalized Service Health

Embora as interrupções de serviço sejam inevitáveis, a comunicação transparente e antecipada é essencial para avaliar o que está acontecendo, manter as partes interessadas informadas e executar ações para minimizar o impacto nos negócios.

Operar um aplicativo de nuvem confiável é uma responsabilidade compartilhada entre Google Cloud e os desenvolvedores de aplicativos. Quando ocorre uma interrupção de serviço, o Google Cloud visa comunicar o incidente rapidamente e fornecer uma avaliação de impacto. Você precisa avaliar como receber notificações, agir em incidentes emergentes e gerenciar o impacto no seu aplicativo.

O Personalized Service Health pode ajudar nesse processo. É possível fazer a integração de várias maneiras para saber sobre incidentes emergentes, avaliar o impacto nas suas aplicações e receber atualizações do Google Cloud. Este documento apresenta uma visão geral de como receber indicadores de interrupções de serviço do Google Cloud, incluindo recomendações sobre como fazer a integração com eles.

Decidir onde integrar

O Personalized Service Health oferece uma visualização personalizada dos Google Cloud produtos usados pelos seus projetos ou em toda a organização. Recomendamos a integração com o Personalized Service Health para oferecer a maior cobertura e variedade de opções de integração.

Ponto de integração Caso de uso Benefícios Dependências
Painel do console (Personalized Service Health) Ver interrupções ativas Personalizado para seus projetos e disponível por padrão Identity and Access Management (IAM)
console do Google Cloud
Alertas (Personalized Service Health) Notificações proativas Personalizado para seus projetos, conveniente e proativo IAM
Cloud Logging
Cloud Monitoring
API (integridade personalizada do serviço) Integrar com outro sistema ou ferramenta Personalizadas para seus projetos ou organização IAM

Escolher o método de interação com o Personalized Service Health

Considere a Personalized Service Health no contexto das operações, do monitoramento e do modelo de resposta a incidentes pretendidos. Ao avaliar como suas equipes usam os indicadores durante e antes dos incidentes, você pode decidir como quer usar o Custom Service Health.

A tabela a seguir mostra como você pode interagir com a integridade personalizada do serviço, dependendo da configuração.

Exemplo de cenário na sua organização Integração com o Personalized Service Health Exemplo de ferramentas que você pode estar integrando
Desenvolvedores que estão de plantão para alguns aplicativos Alertas de projetos individuais

Painel do console

Google Cloud Observability, PagerDuty
Resposta a incidentes centralizada em uma organização Integração da API com o sistema atual usando a API OrganizationEvents (v1, v1beta) PagerDuty, painéis personalizados
Plataforma interna para gerenciar recursos e operações na nuvem. API Service Health
Alertas de projetos individuais
Integração da API Service Health com uma plataforma de desenvolvedores interna
Backstage, Terraform
Muitos projetos configurados e gerenciados de forma programática (por exemplo,mais de 1.000) API Service Health
Notificações automatizadas com base em API
Backstage, Terraform, PagerDuty

Usar o Personalized Service Health durante um incidente

Depois de fazer a integração com o Personalized Service Health e começar a receber notificações de alerta, o serviço vai fornecer informações sobre Google Cloudinterrupções que podem ajudar você a gerenciar o impacto delas.

Detectar e definir o escopo do incidente

Algumas perguntas que você pode fazer nesta fase incluem:

  • É um problema real?
  • Você pode validar o impacto?
  • Quais são os sintomas?
  • Quais usuários, produtos ou partes da empresa são afetados? Quais regiões geográficas?

O Personalized Service Health ajuda você a entender se o problema é do seu projeto ou do Google para que você possa implementar a resposta a incidentes adequada. Com ele, é possível encontrar e visualizar informações de eventos para monitorar o evento, os produtos afetados e os locais que afetam seu projeto.

Confira algumas etapas que você pode seguir:

  1. Revise o alerta, se você o tiver configurado.
    • O que causou esse alerta?
    • Como esses alertas se encaixam em todos os outros alertas potencialmente específicos do produto?
  2. Acesse o painel do Service Health do seu projeto ou organização. Você pode conferir eventos, produtos afetados e locais rapidamente e responder às seguintes perguntas:
    • Quais dos seus projetos são afetados?
    • Quais produtos de que seu projeto depende são afetados?
    • O evento está afetando recursos específicos nesses locais?
  3. Analise os eventos e entenda o escopo, o impacto e a relevância deles para seu projeto.
  4. Identifique um evento que pareça conectado ao problema que você está vendo.
  5. Encontre etapas de verificação, mitigação (se disponível) e tempo esperado de resolução do evento.

O Personalized Service Health ajuda você a analisar o estado atual e o impacto dos incidentes que afetam seu projeto ou organização para que você possa gerenciar e responder a eles com eficiência. Por exemplo, é possível priorizar de forma eficaz identificando com precisão o incidente de maior prioridade.

Mitigar, resolver ou encaminhar o incidente

Algumas perguntas que você pode fazer nesta fase incluem:

  • Como você pode contornar o incidente?
  • É possível corrigir isso diretamente?
  • Você deve iniciar um failover agora ou esperar mais?
  • Quem você precisa notificar para corrigir o problema?

A integridade do serviço personalizado ajuda você a entender o impacto de um incidente nos seus projetos e recursos, receber informações sobre soluções alternativas disponíveis e atualizações sobre o tempo estimado de resolução.

Monitorar o progresso da resolução de incidentes

A visão geral de eventos no painel de Service Health identifica informações importantes, como sintomas e soluções alternativas, que são necessárias para a mitigação e mostra quando o estado muda. Com esses detalhes, é possível:

  • Acompanhe um resumo contínuo do possível impacto à medida que a situação evolui.
  • Fique por dentro de qualquer novidade e do horário previsto da próxima comunicação ou atualização.
  • Veja quando um sintoma é publicado.
  • Saiba quando uma solução alternativa é identificada.
  • Veja quando o estado muda para Resolvido.

Enquanto monitora o progresso, você pode fazer o seguinte:

  • Analise as soluções alternativas, se disponíveis.
  • Implemente a resposta a incidentes adequada para seu projeto ou organização.
  • Continue monitorando o evento até que ele seja atenuado ou resolvido.

Quando entrar em contato com o suporte

O Google está ciente dos eventos que aparecem no painel de Service Health. Para saber o que o Google está fazendo sobre um evento, selecione-o para ver os detalhes.

Se um problema não aparecer em nenhum dos eventos no painel, entre em contato com o suporte.

Usar o Personalized Service Health com outras fontes de informações sobre incidentes

Independente da configuração da sua empresa, use a Personalized Service Health como um sinal adicional ao avaliar o impacto dos incidentes. Revise várias fontes de informações sobre incidentes para decidir as próximas etapas com base em dados e evidências.

Motivos para usar várias fontes de informações sobre incidentes:

  • Um produto do Google Cloud pode estar passando por um incidente em algum local, mas seus projetos podem não ser afetados porque estão em um local diferente.
  • Se o sistema de veiculação tiver duas réplicas completas em zonas separadas e um produto Google Cloud crítico em uma zona falhar, o Service Health personalizado vai informar sobre essa falha. No entanto, talvez seus usuários não sejam afetados e você não precise tomar medidas imediatas.
  • Se o projeto depender de muitos produtos do Google Cloud em um local, o Personalized Service Health não saberá:
    • Se o projeto exigir que todos os produtos estejam funcionando.
    • Se o projeto vai continuar funcionando caso um produto falhe.
    • Se todo o aplicativo for afetado se um ou mais produtos falharem.
  • O próprio Personalized Service Health também pode ser degradado ou falhar. Para verificar, confira o status.

Você precisará interpretar os indicadores do Personalized Service Health de acordo com sua configuração.