Embora as interrupções de serviço sejam inevitáveis, a comunicação transparente e antecipada é essencial para avaliar o que está acontecendo, manter as partes interessadas informadas e executar ações para minimizar o impacto nos negócios.
Operar um aplicativo de nuvem confiável é uma responsabilidade compartilhada entre Google Cloud e os desenvolvedores de aplicativos. Quando ocorre uma interrupção de serviço, o Google Cloud visa comunicar o incidente rapidamente e fornecer uma avaliação de impacto. Você precisa avaliar como receber notificações, agir em incidentes emergentes e gerenciar o impacto no seu aplicativo.
O Personalized Service Health pode ajudar nesse processo. É possível fazer a integração de várias maneiras para saber sobre incidentes emergentes, avaliar o impacto nas suas aplicações e receber atualizações do Google Cloud. Este documento apresenta uma visão geral de como receber indicadores de interrupções de serviço do Google Cloud, incluindo recomendações sobre como fazer a integração com eles.
Decidir onde integrar
O Personalized Service Health oferece uma visualização personalizada dos Google Cloud produtos usados pelos seus projetos ou em toda a organização. Recomendamos a integração com o Personalized Service Health para oferecer a maior cobertura e variedade de opções de integração.
Ponto de integração | Caso de uso | Benefícios | Dependências |
Painel do console (Personalized Service Health) | Ver interrupções ativas | Personalizado para seus projetos e disponível por padrão | Identity and Access Management (IAM) console do Google Cloud |
Alertas (Personalized Service Health) | Notificações proativas | Personalizado para seus projetos, conveniente e proativo | IAM Cloud Logging Cloud Monitoring |
API (integridade personalizada do serviço) | Integrar com outro sistema ou ferramenta | Personalizadas para seus projetos ou organização | IAM |
Escolher o método de interação com o Personalized Service Health
Considere a Personalized Service Health no contexto das operações, do monitoramento e do modelo de resposta a incidentes pretendidos. Ao avaliar como suas equipes usam os indicadores durante e antes dos incidentes, você pode decidir como quer usar o Custom Service Health.
A tabela a seguir mostra como você pode interagir com a integridade personalizada do serviço, dependendo da configuração.
Exemplo de cenário na sua organização | Integração com o Personalized Service Health | Exemplo de ferramentas que você pode estar integrando |
Desenvolvedores que estão de plantão para alguns aplicativos | Alertas de projetos individuais
Painel do console |
Google Cloud Observability, PagerDuty |
Resposta a incidentes centralizada em uma organização | Integração da API com o sistema atual usando a API OrganizationEvents (v1, v1beta) | PagerDuty, painéis personalizados |
Plataforma interna para gerenciar recursos e operações na nuvem. | API Service Health Alertas de projetos individuais Integração da API Service Health com uma plataforma de desenvolvedores interna |
Backstage, Terraform |
Muitos projetos configurados e gerenciados de forma programática (por exemplo,mais de 1.000) | API Service Health Notificações automatizadas com base em API |
Backstage, Terraform, PagerDuty |
Usar o Personalized Service Health durante um incidente
Depois de fazer a integração com o Personalized Service Health e começar a receber notificações de alerta, o serviço vai fornecer informações sobre Google Cloudinterrupções que podem ajudar você a gerenciar o impacto delas.
Detectar e definir o escopo do incidente
Algumas perguntas que você pode fazer nesta fase incluem:
- É um problema real?
- Você pode validar o impacto?
- Quais são os sintomas?
- Quais usuários, produtos ou partes da empresa são afetados? Quais regiões geográficas?
O Personalized Service Health ajuda você a entender se o problema é do seu projeto ou do Google para que você possa implementar a resposta a incidentes adequada. Com ele, é possível encontrar e visualizar informações de eventos para monitorar o evento, os produtos afetados e os locais que afetam seu projeto.
Confira algumas etapas que você pode seguir:
- Revise o alerta, se você o tiver configurado.
- O que causou esse alerta?
- Como esses alertas se encaixam em todos os outros alertas potencialmente específicos do produto?
- Acesse o painel do Service Health do seu projeto ou organização. Você pode conferir eventos, produtos afetados e locais rapidamente e responder às seguintes perguntas:
- Quais dos seus projetos são afetados?
- Quais produtos de que seu projeto depende são afetados?
- O evento está afetando recursos específicos nesses locais?
- Analise os eventos e entenda o escopo, o impacto e a relevância deles para seu projeto.
- Identifique um evento que pareça conectado ao problema que você está vendo.
- Encontre etapas de verificação, mitigação (se disponível) e tempo esperado de resolução do evento.
O Personalized Service Health ajuda você a analisar o estado atual e o impacto dos incidentes que afetam seu projeto ou organização para que você possa gerenciar e responder a eles com eficiência. Por exemplo, é possível priorizar de forma eficaz identificando com precisão o incidente de maior prioridade.
Mitigar, resolver ou encaminhar o incidente
Algumas perguntas que você pode fazer nesta fase incluem:
- Como você pode contornar o incidente?
- É possível corrigir isso diretamente?
- Você deve iniciar um failover agora ou esperar mais?
- Quem você precisa notificar para corrigir o problema?
A integridade do serviço personalizado ajuda você a entender o impacto de um incidente nos seus projetos e recursos, receber informações sobre soluções alternativas disponíveis e atualizações sobre o tempo estimado de resolução.
Monitorar o progresso da resolução de incidentes
A visão geral de eventos no painel de Service Health identifica informações importantes, como sintomas e soluções alternativas, que são necessárias para a mitigação e mostra quando o estado muda. Com esses detalhes, é possível:
- Acompanhe um resumo contínuo do possível impacto à medida que a situação evolui.
- Fique por dentro de qualquer novidade e do horário previsto da próxima comunicação ou atualização.
- Veja quando um sintoma é publicado.
- Saiba quando uma solução alternativa é identificada.
- Veja quando o estado muda para Resolvido.
Enquanto monitora o progresso, você pode fazer o seguinte:
- Analise as soluções alternativas, se disponíveis.
- Implemente a resposta a incidentes adequada para seu projeto ou organização.
- Continue monitorando o evento até que ele seja atenuado ou resolvido.
Quando entrar em contato com o suporte
O Google está ciente dos eventos que aparecem no painel de Service Health. Para saber o que o Google está fazendo sobre um evento, selecione-o para ver os detalhes.
Se um problema não aparecer em nenhum dos eventos no painel, entre em contato com o suporte.
Usar o Personalized Service Health com outras fontes de informações sobre incidentes
Independente da configuração da sua empresa, use a Personalized Service Health como um sinal adicional ao avaliar o impacto dos incidentes. Revise várias fontes de informações sobre incidentes para decidir as próximas etapas com base em dados e evidências.
Motivos para usar várias fontes de informações sobre incidentes:
- Um produto do Google Cloud pode estar passando por um incidente em algum local, mas seus projetos podem não ser afetados porque estão em um local diferente.
- Se o sistema de veiculação tiver duas réplicas completas em zonas separadas e um produto Google Cloud crítico em uma zona falhar, o Service Health personalizado vai informar sobre essa falha. No entanto, talvez seus usuários não sejam afetados e você não precise tomar medidas imediatas.
- Se o projeto depender de muitos produtos do Google Cloud em um local, o Personalized Service Health não saberá:
- Se o projeto exigir que todos os produtos estejam funcionando.
- Se o projeto vai continuar funcionando caso um produto falhe.
- Se todo o aplicativo for afetado se um ou mais produtos falharem.
- O próprio Personalized Service Health também pode ser degradado ou falhar. Para verificar, confira o status.
Você precisará interpretar os indicadores do Personalized Service Health de acordo com sua configuração.