預測 AI 評估服務可讓您評估模型在特定用途的成效。您也可以將評估視為觀察模型成效的方式。Vertex AI 提供的模型評估服務可透過多種方式,融入典型的機器學習工作流程:
訓練模型後,請先查看模型評估指標,再部署模型。您可以比較多個模型的評估指標,以便決定要部署哪個模型。
將模型部署到實際工作環境後,請定期使用新資料評估模型。如果評估指標顯示模型效能下降,請考慮重新訓練模型。這項程序稱為「持續評估」。
如何解讀及使用這些指標,取決於您的業務需求及模型接受訓練解決的問題。舉例來說,您對偽陽性的容忍度可能低於偽陰性,反之亦然。這類問題會影響您在疊代模型時著重的指標。
預測型 AI 模型評估服務提供的主要指標包括:
功能
如要使用 Vertex AI 評估模型,您應具備訓練好的模型、批次預測輸出內容和基準真相資料集。以下是使用 Vertex AI 進行模型評估的典型工作流程:
訓練模型。您可以在 Vertex AI 中使用 AutoML 或自訂訓練來完成這項作業。
對模型執行批次預測工作,產生預測結果。
準備實際資料,也就是由人工判定的「正確標籤」資料。通常是模型訓練期間使用的測試資料集。
對模型執行評估工作,評估批次預測結果與實際資料相比的準確度。
分析評估作業產生的指標。
反覆調整模型,看看是否能提高準確度。您可以執行多個評估工作,並比較模型或模型版本之間的多個工作結果。
您可以使用下列幾種方式,在 Vertex AI 中執行模型評估:
透過Google Cloud 控制台中的 Vertex AI Model Registry 建立評估。
使用 Vertex AI 的模型評估結果做為 Vertex AI Pipelines 的管道元件。您可以建立管道執行和範本,將模型評估納入自動化 MLOps 工作流程。
您可以單獨執行模型評估元件,也可以搭配其他管道元件 (例如批次預測元件) 執行。
Vertex AI 支援評估下列模型類型:
圖片
分類
您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
- 對數損失:模型預測與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
- 可信度門檻:決定要傳回哪些預測結果的可信度分數。模型會傳回大於或等於這個值的預測結果。可信度門檻越高,精確度就會提高,但喚回度會降低。Vertex AI 會回傳不同門檻值的信賴度指標,顯示門檻對精確度和召回率的影響。
- 喚回度:模型正確預測出含有此類別的預測結果的比例,也稱為「真陽率」。
- 精確度:模型產生的正確分類預測比例。
- 混淆矩陣:混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。
表格
分類
您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
- AuROC:接收者操作特徵曲線下的面積。範圍從零到一,值越大代表模型品質越高。
- 對數損失:模型預測與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
- 可信度門檻:決定要傳回哪些預測結果的可信度分數。模型會傳回大於或等於這個值的預測結果。可信度門檻越高,精確度就會提高,但喚回度會降低。Vertex AI 會回傳不同門檻值的信賴度指標,顯示門檻對精確度和召回率的影響。
- 喚回度:模型正確預測出含有此類別的預測結果的比例,也稱為「真陽率」。
- 1 的喚回率:只考慮每個範例中預測分數最高且不低於信賴度門檻的標籤時,喚回率 (真陽率)。
- 精確度:模型產生的正確分類預測比例。
- 精確度 (1):只考慮預測分數最高且高於每個樣本信賴度門檻的標籤時,精確度為何。
- F1 分數:精確度與喚回度的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。
- F1 分數 (1):召回率 (1) 和精確度 (1) 的調和平均數。
- 混淆矩陣:混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。
- 真陰性計數:模型正確預測負類的次數。
- 真陽性計數:模型正確預測正向類別的次數。
- 偽陰性計數:模型錯誤預測負類的次數。
- 偽陽性計數:模型錯誤預測正類的次數。
- 偽陽率:所有預測結果中,預測錯誤的結果所占比例。
- 偽陽率 (1):只考量預測分數最高且高於每個樣本信賴度門檻的標籤時,偽陽率是多少。
- 模型特徵歸因: Vertex AI 會顯示各項特徵對模型的影響程度。系統會為每個特徵提供百分比值,百分比越高,代表該特徵對模型訓練的影響越大。請檢閱這項資訊,確保所有最重要的特徵對您的資料和業務問題具有合理意義。
迴歸
您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE:平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這個指標的範圍從零到無限大,值越低代表模型品質越好。
- RMSE:均方根誤差是目標與預測值之間均方差的平方根。RMSE 對離群值比 MAE 更敏感,所以如果您擔心大型誤差,RMSE 可作為更實用的評估指標。RMSE 和 MAE 一樣,值越小代表模型品質越高 (0 代表完美預測因子)。
- RMSLE:均方根對數誤差指標與均方根誤差類似,但會使用預測值和實際值的自然對數加 1。均方根對數誤差對低估的懲罰比高估更重。如果不想對大預測值與小預測值的差異施加不同程度的懲罰,這也是個不錯的指標。這項指標的範圍從零到無限大,值越低代表模型品質越高。只有在所有標籤和預測值皆為非負數時,系統才會傳回 RMSLE 評估指標。
- r^2:r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方,這項指標的範圍介於 0 到 1 之間。值越高,表示越接近迴歸線。
-
MAPE:平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這項指標的範圍介於零到無限大之間,值越小代表模型品質越好。
如果目標資料欄含有任何 0 值,系統就不會顯示 MAPE。在這種情況下,MAPE 未定義。 - 模型特徵歸因: Vertex AI 會顯示各項特徵對模型的影響程度。系統會為每個特徵提供百分比值,百分比越高,代表該特徵對模型訓練的影響越大。請檢閱這項資訊,確保所有最重要的特徵對您的資料和業務問題具有合理意義。
預測
您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE:平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這個指標的範圍從零到無限大,值越低代表模型品質越好。
- RMSE:均方根誤差是目標與預測值之間均方差的平方根。RMSE 對離群值比 MAE 更敏感,所以如果您擔心大型誤差,RMSE 可作為更實用的評估指標。RMSE 和 MAE 一樣,值越小代表模型品質越高 (0 代表完美預測因子)。
- RMSLE:均方根對數誤差指標與均方根誤差類似,但會使用預測值和實際值的自然對數加 1。均方根對數誤差對低估的懲罰比高估更重。如果不想對大預測值與小預測值的差異施加不同程度的懲罰,這也是個不錯的指標。這項指標的範圍從零到無限大,值越低代表模型品質越高。只有在所有標籤和預測值皆為非負數時,系統才會傳回 RMSLE 評估指標。
- r^2:r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方,這項指標的範圍介於 0 到 1 之間。值越高,表示越接近迴歸線。
-
MAPE:平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這項指標的範圍介於零到無限大之間,值越小代表模型品質越好。
如果目標資料欄含有任何 0 值,系統就不會顯示 MAPE。在這種情況下,MAPE 未定義。 - WAPE:加權絕對百分比誤差 (WAPE) 是模型預測值與觀察值之間的整體差異,除以觀察值。相較於 RMSE,WAPE 著重於整體差異,而非個別差異,因此較不會受到低值或間歇值影響。值越小代表模型品質越高。
- 均方根百分比誤差 (RMSPE):均方根百分比誤差 (RMSPE) 會以實際值的百分比顯示均方根誤差,而非絕對值。值越小代表模型品質越高。
- Quantile:百分比分位數,表示觀察到的值低於預測值的機率。舉例來說,在 0.5 分位數,觀察到的值應有 50% 的時間低於預測值。
- 觀察到的分位數:顯示在指定分位數中,實際值低於預測值所占的百分比。
- 縮放的彈珠損失:特定分位數的縮放彈珠損失。 值越低代表模型在指定分位數的品質越高。
文字
」分類
您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
- 對數損失:模型預測與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
- 可信度門檻:決定要傳回哪些預測結果的可信度分數。模型會傳回大於或等於這個值的預測結果。可信度門檻越高,精確度就會提高,但喚回度會降低。Vertex AI 會回傳不同門檻值的信賴度指標,顯示門檻對精確度和召回率的影響。
- 喚回度:模型正確預測出含有此類別的預測結果的比例,也稱為「真陽率」。
- 1 的喚回率:只考慮每個範例中預測分數最高且不低於信賴度門檻的標籤時,喚回率 (真陽率)。
- 精確度:模型產生的正確分類預測比例。
- 精確度 (1):只考慮預測分數最高且高於每個樣本信賴度門檻的標籤時,精確度為何。
- 混淆矩陣:混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。
- F1 分數:精確度與喚回度的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。
- F1 分數 (1):召回率 (1) 和精確度 (1) 的調和平均數。
影片
分類
您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
- 可信度門檻:決定要傳回哪些預測結果的可信度分數。模型會傳回大於或等於這個值的預測結果。可信度門檻越高,精確度就會提高,但喚回度會降低。Vertex AI 會回傳不同門檻值的信賴度指標,顯示門檻對精確度和召回率的影響。
- 喚回度:模型正確預測出含有此類別的預測結果的比例,也稱為「真陽率」。
- 精確度:模型產生的正確分類預測比例。
- 混淆矩陣:混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。
- F1 分數:精確度與喚回度的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。
筆記本教學課程
AutoML:表格
AutoML:文字
AutoML:影片
自訂訓練:表格
Vertex AI Model Registry
後續步驟
- 瞭解如何使用 Vertex AI 評估模型。