Vertex AI 的模型評估

預測 AI 評估服務可讓您評估模型在特定用途的成效。您也可以將評估視為觀察模型成效的方式。Vertex AI 提供的模型評估服務可透過多種方式,融入典型的機器學習工作流程:

  • 訓練模型後,請先查看模型評估指標,再部署模型。您可以比較多個模型的評估指標,以便決定要部署哪個模型。

  • 將模型部署到實際工作環境後,請定期使用新資料評估模型。如果評估指標顯示模型效能下降,請考慮重新訓練模型。這項程序稱為「持續評估」

如何解讀及使用這些指標,取決於您的業務需求及模型接受訓練解決的問題。舉例來說,您對偽陽性的容忍度可能低於偽陰性,反之亦然。這類問題會影響您在疊代模型時著重的指標。

預測型 AI 模型評估服務提供的主要指標包括:

功能

如要使用 Vertex AI 評估模型,您應具備訓練好的模型、批次預測輸出內容和基準真相資料集。以下是使用 Vertex AI 進行模型評估的典型工作流程:

  1. 訓練模型。您可以在 Vertex AI 中使用 AutoML 或自訂訓練來完成這項作業。

  2. 對模型執行批次預測工作,產生預測結果。

  3. 準備實際資料,也就是由人工判定的「正確標籤」資料。通常是模型訓練期間使用的測試資料集。

  4. 對模型執行評估工作,評估批次預測結果與實際資料相比的準確度。

  5. 分析評估作業產生的指標。

  6. 反覆調整模型,看看是否能提高準確度。您可以執行多個評估工作,並比較模型或模型版本之間的多個工作結果。

您可以使用下列幾種方式,在 Vertex AI 中執行模型評估:

  • 透過Google Cloud 控制台中的 Vertex AI Model Registry 建立評估。

  • 使用 Vertex AI 的模型評估結果做為 Vertex AI Pipelines 的管道元件。您可以建立管道執行和範本,將模型評估納入自動化 MLOps 工作流程。

    您可以單獨執行模型評估元件,也可以搭配其他管道元件 (例如批次預測元件) 執行。

Vertex AI 支援評估下列模型類型:

圖片

分類

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
  • 對數損失:模型預測與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
  • 可信度門檻:決定要傳回哪些預測結果的可信度分數。模型會傳回大於或等於這個值的預測結果。可信度門檻越高,精確度就會提高,但喚回度會降低。Vertex AI 會回傳不同門檻值的信賴度指標,顯示門檻對精確度召回率的影響。
  • 喚回度:模型正確預測出含有此類別的預測結果的比例,也稱為「真陽率」
  • 精確度:模型產生的正確分類預測比例。
  • 混淆矩陣混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。

表格

分類

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
  • AuROC:接收者操作特徵曲線下的面積。範圍從零到一,值越大代表模型品質越高。
  • 對數損失:模型預測與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
  • 可信度門檻:決定要傳回哪些預測結果的可信度分數。模型會傳回大於或等於這個值的預測結果。可信度門檻越高,精確度就會提高,但喚回度會降低。Vertex AI 會回傳不同門檻值的信賴度指標,顯示門檻對精確度召回率的影響。
  • 喚回度:模型正確預測出含有此類別的預測結果的比例,也稱為「真陽率」
  • 1 的喚回率:只考慮每個範例中預測分數最高且不低於信賴度門檻的標籤時,喚回率 (真陽率)。
  • 精確度:模型產生的正確分類預測比例。
  • 精確度 (1):只考慮預測分數最高且高於每個樣本信賴度門檻的標籤時,精確度為何。
  • F1 分數:精確度與喚回度的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。
  • F1 分數 (1):召回率 (1) 和精確度 (1) 的調和平均數。
  • 混淆矩陣混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。
  • 真陰性計數:模型正確預測負類的次數。
  • 真陽性計數:模型正確預測正向類別的次數。
  • 偽陰性計數:模型錯誤預測負類的次數。
  • 偽陽性計數:模型錯誤預測正類的次數。
  • 偽陽率:所有預測結果中,預測錯誤的結果所占比例。
  • 偽陽率 (1):只考量預測分數最高且高於每個樣本信賴度門檻的標籤時,偽陽率是多少。
  • 模型特徵歸因: Vertex AI 會顯示各項特徵對模型的影響程度。系統會為每個特徵提供百分比值,百分比越高,代表該特徵對模型訓練的影響越大。請檢閱這項資訊,確保所有最重要的特徵對您的資料和業務問題具有合理意義。

迴歸

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE:平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這個指標的範圍從零到無限大,值越低代表模型品質越好。
  • RMSE:均方根誤差是目標與預測值之間均方差的平方根。RMSE 對離群值比 MAE 更敏感,所以如果您擔心大型誤差,RMSE 可作為更實用的評估指標。RMSE 和 MAE 一樣,值越小代表模型品質越高 (0 代表完美預測因子)。
  • RMSLE:均方根對數誤差指標與均方根誤差類似,但會使用預測值和實際值的自然對數加 1。均方根對數誤差對低估的懲罰比高估更重。如果不想對大預測值與小預測值的差異施加不同程度的懲罰,這也是個不錯的指標。這項指標的範圍從零到無限大,值越低代表模型品質越高。只有在所有標籤和預測值皆為非負數時,系統才會傳回 RMSLE 評估指標。
  • r^2:r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方,這項指標的範圍介於 0 到 1 之間。值越高,表示越接近迴歸線。
  • MAPE:平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這項指標的範圍介於零到無限大之間,值越小代表模型品質越好。
    如果目標資料欄含有任何 0 值,系統就不會顯示 MAPE。在這種情況下,MAPE 未定義。
  • 模型特徵歸因: Vertex AI 會顯示各項特徵對模型的影響程度。系統會為每個特徵提供百分比值,百分比越高,代表該特徵對模型訓練的影響越大。請檢閱這項資訊,確保所有最重要的特徵對您的資料和業務問題具有合理意義。

預測

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE:平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這個指標的範圍從零到無限大,值越低代表模型品質越好。
  • RMSE:均方根誤差是目標與預測值之間均方差的平方根。RMSE 對離群值比 MAE 更敏感,所以如果您擔心大型誤差,RMSE 可作為更實用的評估指標。RMSE 和 MAE 一樣,值越小代表模型品質越高 (0 代表完美預測因子)。
  • RMSLE:均方根對數誤差指標與均方根誤差類似,但會使用預測值和實際值的自然對數加 1。均方根對數誤差對低估的懲罰比高估更重。如果不想對大預測值與小預測值的差異施加不同程度的懲罰,這也是個不錯的指標。這項指標的範圍從零到無限大,值越低代表模型品質越高。只有在所有標籤和預測值皆為非負數時,系統才會傳回 RMSLE 評估指標。
  • r^2:r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方,這項指標的範圍介於 0 到 1 之間。值越高,表示越接近迴歸線。
  • MAPE:平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這項指標的範圍介於零到無限大之間,值越小代表模型品質越好。
    如果目標資料欄含有任何 0 值,系統就不會顯示 MAPE。在這種情況下,MAPE 未定義。
  • WAPE:加權絕對百分比誤差 (WAPE) 是模型預測值與觀察值之間的整體差異,除以觀察值。相較於 RMSE,WAPE 著重於整體差異,而非個別差異,因此較不會受到低值或間歇值影響。值越小代表模型品質越高。
  • 均方根百分比誤差 (RMSPE):均方根百分比誤差 (RMSPE) 會以實際值的百分比顯示均方根誤差,而非絕對值。值越小代表模型品質越高。
  • Quantile:百分比分位數,表示觀察到的值低於預測值的機率。舉例來說,在 0.5 分位數,觀察到的值應有 50% 的時間低於預測值。
  • 觀察到的分位數:顯示在指定分位數中,實際值低於預測值所占的百分比。
  • 縮放的彈珠損失:特定分位數的縮放彈珠損失。 值越低代表模型在指定分位數的品質越高。

文字

分類

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
  • 對數損失:模型預測與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
  • 可信度門檻:決定要傳回哪些預測結果的可信度分數。模型會傳回大於或等於這個值的預測結果。可信度門檻越高,精確度就會提高,但喚回度會降低。Vertex AI 會回傳不同門檻值的信賴度指標,顯示門檻對精確度召回率的影響。
  • 喚回度:模型正確預測出含有此類別的預測結果的比例,也稱為「真陽率」
  • 1 的喚回率:只考慮每個範例中預測分數最高且不低於信賴度門檻的標籤時,喚回率 (真陽率)。
  • 精確度:模型產生的正確分類預測比例。
  • 精確度 (1):只考慮預測分數最高且高於每個樣本信賴度門檻的標籤時,精確度為何。
  • 混淆矩陣混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。
  • F1 分數:精確度與喚回度的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。
  • F1 分數 (1):召回率 (1) 和精確度 (1) 的調和平均數。

影片

分類

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
  • 可信度門檻:決定要傳回哪些預測結果的可信度分數。模型會傳回大於或等於這個值的預測結果。可信度門檻越高,精確度就會提高,但喚回度會降低。Vertex AI 會回傳不同門檻值的信賴度指標,顯示門檻對精確度召回率的影響。
  • 喚回度:模型正確預測出含有此類別的預測結果的比例,也稱為「真陽率」
  • 精確度:模型產生的正確分類預測比例。
  • 混淆矩陣混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。
  • F1 分數:精確度與喚回度的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。

筆記本教學課程

AutoML:表格

AutoML:文字

AutoML:影片

自訂訓練:表格

Vertex AI Model Registry

後續步驟