Integración en Personalized Service Health

Si bien las interrupciones del servicio son inevitables, la comunicación transparente y temprana es esencial para evaluar lo que sucede, mantener informados a los interesados y ejecutar acciones para minimizar el impacto en tu empresa.

Operar una aplicación en la nube confiable es una responsabilidad compartida entreGoogle Cloud y los desarrolladores de aplicaciones. Cuando se produce una interrupción del servicio,Google Cloud tiene como objetivo comunicar el incidente rápidamente y proporcionar una evaluación del impacto. Debes evaluar cómo recibir notificaciones, actuar ante incidentes emergentes y administrar el impacto en tu aplicación.

El estado del servicio personalizado puede ayudarte con este proceso. Puedes realizar la integración de varias maneras para conocer los incidentes emergentes, evaluar el impacto en tus aplicaciones y recibir actualizaciones de Google Cloud. En este documento, se proporciona una descripción general de cómo recibir indicadores de interrupciones del servicio deGoogle Cloud, incluidas recomendaciones para la integración con ellos.

Decide dónde realizar la integración

Personalized Service Health proporciona una vista personalizada de los Google Cloud productos que usan tus proyectos o toda tu organización. Te recomendamos que realices la integración con el estado del servicio personalizado para obtener la mayor cobertura y variedad de opciones de integración.

Punto de integración Caso práctico Beneficios Dependencias
Panel de la consola (Personalized Service Health) Cómo ver las interrupciones activas Personalizado para tus proyectos y disponible de forma predeterminada Identity and Access Management (IAM)
Google Cloud console
Alertas (Personalized Service Health) Notificaciones proactivas Personalizado para tus proyectos, conveniente y proactivo IAM
Cloud Logging
Cloud Monitoring
API (estado del servicio personalizado) Integración con otro sistema o herramienta Personalizado para tus proyectos u organización IAM

Elige el método de interacción con Personalized Service Health

Debes tener en cuenta Personalized Service Health en el contexto de tus operaciones, supervisión y modelo de respuesta ante incidentes previstos. Si evalúas cómo tus equipos usan los indicadores durante los incidentes y antes de que ocurran, puedes decidir cómo quieres usar el estado del servicio personalizado.

En la siguiente tabla, se muestra cómo podrías interactuar con el estado del servicio personalizado, según cómo esté configurado.

Situación de ejemplo en tu organización Integración con Personalized Service Health Ejemplos de herramientas con las que puedes realizar integraciones
Desarrolladores que están de guardia para algunas aplicaciones Alertas de proyectos individuales

Panel de la consola

Google Cloud Observability, PagerDuty
Respuesta ante incidentes centralizada en toda la organización Integración de la API con el sistema existente a través de la API de OrganizationEvents (v1, v1beta) PagerDuty, paneles personalizados
Plataforma interna para administrar recursos y operaciones de la nube API de Service Health
Alertas de proyectos individuales
Integración de la API de Service Health con una plataforma interna para desarrolladores
Backstage, Terraform
Muchos proyectos configurados y administrados de forma programática (por ejemplo, más de 1,000) API de Service Health
Notificaciones automatizadas basadas en la API
Backstage, Terraform y PagerDuty

Usa Personalized Service Health durante un incidente

Una vez que te hayas integrado con Personalized Service Health y comiences a recibir notificaciones de alerta, Personalized Service Health te proporcionará información sobre las Google Cloudinterrupciones que te ayudará a administrar su impacto.

Detecta el incidente y determina su alcance

Las preguntas que podrías hacer en esta etapa incluyen las siguientes:

  • ¿Es un problema real?
  • ¿Puedes validar el impacto?
  • ¿Cuáles son los síntomas?
  • ¿Qué usuarios, productos o partes de la empresa se ven afectados? ¿Qué ubicaciones geográficas?

Personalized Service Health te ayuda a comprender si el problema se origina en tu proyecto o en Google, para que puedas implementar la respuesta ante incidentes adecuada. Te permite encontrar y ver información sobre eventos para que puedas supervisar el evento, los productos afectados y las ubicaciones que afectan tu proyecto.

Estos son algunos pasos que puedes seguir:

  1. Revisa la alerta, si la configuraste.
    • ¿Qué causó la activación de esta alerta?
    • ¿Cómo encajan estas alertas con todas las demás alertas que podrían ser específicas del producto?
  2. Accede al panel de Service Health de tu proyecto o tu organización. Puedes ver los eventos, los productos afectados y las ubicaciones de un vistazo, y responder las siguientes preguntas:
    • ¿Cuáles de tus proyectos se ven afectados?
    • ¿Qué productos se ven afectados por las dependencias de tu proyecto?
    • ¿El evento afecta recursos específicos dentro de esas ubicaciones?
  3. Revisa los eventos y comprende su alcance, impacto y relevancia para tu proyecto.
  4. Identifica un evento que parezca conectado con el problema que ves.
  5. Encuentra los pasos de verificación, la mitigación (si está disponible) y el tiempo de resolución esperado para el evento.

Personalized Service Health te ayuda a revisar el estado actual y el impacto de los incidentes que afectan tu proyecto u organización, para que puedas administrarlos y responder a ellos de manera eficiente. Por ejemplo, puedes priorizar de forma eficaz si identificas con precisión el incidente de mayor prioridad.

Mitigar, resolver o derivar el incidente

Las preguntas que podrías hacer en esta etapa incluyen las siguientes:

  • ¿Cómo puedes evitar el incidente?
  • ¿Puedes corregirlo directamente?
  • ¿Deberías iniciar una conmutación por error ahora o esperar más?
  • ¿A quién debes notificar para que se solucione?

Personalized Service Health te ayuda a comprender el impacto de un incidente en tus proyectos y recursos, a conocer las soluciones alternativas disponibles y a recibir actualizaciones sobre el tiempo estimado de resolución.

Supervisa el progreso hacia la resolución del incidente

El resumen de eventos del panel de Service Health identifica información clave, como síntomas y soluciones alternativas, que son necesarios para la mitigación, y muestra cuándo cambia el estado. Estos detalles te permiten hacer lo siguiente:

  • Supervisar un resumen continuo del impacto potencial a medida que evoluciona la situación
  • Mantente al tanto de los nuevos desarrollos y la hora prevista de la próxima comunicación o actualización.
  • Ver cuándo se publica un síntoma
  • Ver cuándo se identifica una solución alternativa
  • Observa cuándo el estado cambia a Resuelto.

Mientras supervisas el progreso, puedes realizar las siguientes acciones:

  • Revisa las soluciones alternativas, si están disponibles.
  • Implementa la respuesta ante incidentes adecuada para tu proyecto u organización.
  • Sigue supervisando el evento hasta que se mitigue o resuelva.

Cuándo comunicarse con el equipo de asistencia

Google conoce los eventos que aparecen en el panel de Service Health. Para saber qué está haciendo Google con respecto a un evento, selecciónalo para ver los detalles.

Si un problema no parece estar representado en ninguno de los eventos del panel, comunícate con el equipo de asistencia.

Usa Personalized Service Health con otras fuentes de información sobre incidentes

Independientemente de la configuración de tu empresa, usa el estado del servicio personalizado como un indicador adicional cuando evalúes el impacto de los incidentes. Asegúrate de poder revisar varias fuentes de información sobre el incidente para que puedas decidir los próximos pasos en función de los datos y las pruebas.

Entre los motivos para usar varias fuentes de información sobre incidentes, se incluyen los siguientes:

  • Un producto Google Cloud puede estar sufriendo un incidente en alguna ubicación, pero es posible que tus proyectos no se vean afectados porque se encuentran en una ubicación diferente.
  • Si tu sistema de entrega tiene dos réplicas completas en zonas separadas y falla un producto Google Cloud crítico en una zona, el Servicio de estado personalizado te informará sobre esa falla. Sin embargo, es posible que tus usuarios no se vean afectados y que no necesites tomar medidas inmediatas.
  • Si tu proyecto depende de muchos productos de Google Cloud en una ubicación, Personalized Service Health no sabrá lo siguiente:
    • Si tu proyecto requiere que todos los productos sean funcionales
    • Si tu proyecto seguirá funcionando en caso de que falle un producto
    • Si toda tu aplicación se ve afectada si falla uno o más de los productos
  • El propio Personalized Service Health también puede degradarse o fallar. Para verificarlo, puedes consultar su estado.

Deberás interpretar los indicadores de Personalized Service Health según corresponda a tu configuración.