本頁面由 Cloud Translation API 翻譯而成。

事件的生命週期

本文說明 Google Cloud 支援團隊和產品工程團隊如何共同解決事件，並向您提供最新消息。

下圖顯示產品工程和支援團隊的職責。

生命週期圖表

以下各節將說明這些責任。

偵測

Google Cloud 使用內部和綜合監控來偵測事件。如要進一步瞭解相關資訊，請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 6 章。

初步回應

系統偵測到事件時， Google Cloud Service Health 團隊會負責與客戶溝通。一般來說，第一次發出事件通知時，能夠提供的訊息並不多，通常只會提到有問題的產品。我們的用意是盡速發出通知，重點不在於提供具體細節；等到之後我們可以再補充這些細部的資訊。

為了盡可能提供詳盡資料，同時避免讓您收到大量對您無關緊要的事件通知，我們會根據問題的範圍和嚴重性，採取不同的通訊管道：

通訊圖表

調查

產品工程小組會負責調查事件的根本原因。事件管理則通常由網站穩定性工程師執行，但視實際情況和產品而定，也可能交由軟體工程師或其他人員負責。如要進一步瞭解相關資訊，請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 12 章。

緩解措施和修正

只有在 Google 做出變更，且有信心能徹底解除影響後，問題才會認定為「已修正」。舉例來說，修正可能是將觸發事件的變更復原。

事件還未解決時，Service Health 和產品團隊會嘗試「緩解」問題。「緩解」是指問題的影響或範圍得以縮減，例如暫時為超載產品提供額外資源，以便緩解問題。

如果尚未找出緩解措施，服務健康狀態團隊會盡可能尋找「因應措施」並傳授給客戶。「因應措施」是指即便在事件發生的情況下，仍可用於解決當下需求的操作步驟。例如，為 API 呼叫使用不同設定，避開有問題的程式碼路徑，就是一種因應措施。

後續追蹤

在事件發生的過程中，Service Health 團隊會定期向使用者提供更新消息，內容通常包括：

事件詳情，例如錯誤訊息、受影響的區域或地區、受影響功能或影響的百分比。
緩解策略的進度，包括所有因應措施。
根據事件建立的通訊時間軸。
狀態變更，例如事件已成功修正。

回顧

所有事件都會在 Google 內部進行回顧分析，以充分瞭解事件詳情並找出可採取的穩定性改善措施。在此之後，我們便會持續追蹤並執行這些改善措施。如要進一步瞭解相關資訊，請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 15 章。

事件報告

當事件產生的影響非常廣泛且嚴重時，Google 就會提供事件報告，概要說明徵狀、影響、根本原因、補救措施以及日後的防範工作。和回顧一樣，我們會把焦點放在 Google 如何從問題中學習，並據以推出相關措施，進一步改善產品/服務可靠性。Google 撰寫及發布回顧報告的目的在於公開透明化，並表明我們致力於為客戶打造穩定的優質產品。

事件的生命週期 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

偵測

初步回應

調查

緩解措施和修正

後續追蹤

回顧

事件報告

事件的生命週期