事件的生命週期

本文說明 Google Cloud 支援團隊和產品工程團隊如何共同解決事件,並向您提供最新消息。

下圖顯示產品工程和支援團隊的職責。

生命週期圖表

以下各節將說明這些責任。

偵測

Google Cloud 使用內部和綜合監控來偵測事件。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 6 章

初步回應

系統偵測到事件時, Google Cloud Service Health 團隊會負責與客戶溝通。一般來說,第一次發出事件通知時,能夠提供的訊息並不多,通常只會提到有問題的產品。我們的用意是盡速發出通知,重點不在於提供具體細節;等到之後我們可以再補充這些細部的資訊。

為了盡可能提供詳盡資料,同時避免讓您收到大量對您無關緊要的事件通知,我們會根據問題的範圍和嚴重性,採取不同的通訊管道:

通訊圖表

調查

產品工程小組會負責調查事件的根本原因。事件管理則通常由網站穩定性工程師執行,但視實際情況和產品而定,也可能交由軟體工程師或其他人員負責。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 12 章

緩解措施和修正

只有在 Google 做出變更,且有信心能徹底解除影響後,問題才會認定為「已修正」。舉例來說,修正可能是將觸發事件的變更復原。

事件還未解決時,Service Health 和產品團隊會嘗試「緩解」問題。「緩解」是指問題的影響或範圍得以縮減,例如暫時為超載產品提供額外資源,以便緩解問題。

如果尚未找出緩解措施,服務健康狀態團隊會盡可能尋找「因應措施」並傳授給客戶。「因應措施」是指即便在事件發生的情況下,仍可用於解決當下需求的操作步驟。例如,為 API 呼叫使用不同設定,避開有問題的程式碼路徑,就是一種因應措施。

後續追蹤

在事件發生的過程中,Service Health 團隊會定期向使用者提供更新消息,內容通常包括:

  • 事件詳情,例如錯誤訊息、受影響的區域或地區、受影響功能或影響的百分比。

  • 緩解策略的進度,包括所有因應措施。

  • 根據事件建立的通訊時間軸。

  • 狀態變更,例如事件已成功修正。

回顧

所有事件都會在 Google 內部進行回顧分析,以充分瞭解事件詳情並找出可採取的穩定性改善措施。在此之後,我們便會持續追蹤並執行這些改善措施。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 15 章

事件報告

當事件產生的影響非常廣泛且嚴重時,Google 就會提供事件報告,概要說明徵狀、影響、根本原因、補救措施以及日後的防範工作。和回顧一樣,我們會把焦點放在 Google 如何從問題中學習,並據以推出相關措施,進一步改善產品/服務可靠性。Google 撰寫及發布回顧報告的目的在於公開透明化,並表明我們致力於為客戶打造穩定的優質產品。