本頁說明 Dataflow 的計費方式。如要查看其他產品的價格,請參閱定價說明文件。
如要瞭解如何透過承諾使用三年省下 40% 費用,或承諾使用一年省下 20% 費用,請查看我們的承諾使用折扣 (CUD)頁面。
Dataflow 用量計費方式是根據工作使用的資源量。視您採用的定價模式而定,資源的計量和計費方式會有所不同。
| 資料運算單元 (DCU) (批次和串流) |
資料運算單元 (DCU)
(批次和串流)
會產生費用 (適用於所有工作) 的其他 Dataflow 資源包括永久磁碟、GPU 和快照。
Dataflow 工作可能會使用其他服務的資源。Dataflow 搭配使用的服務可能包括 BigQuery、Pub/Sub、Cloud Storage 和 Cloud Logging 等。
雖然費率是以小時為計費單位,不過 Dataflow 的用量是以秒為單位計費,且各項工作分開計算。為了將以秒計費的使用量轉換成以小時為單位的計費方式,我們將會以小時來表示使用量。例如 30 分鐘為 0.5 小時。工作站和工作使用資源的方式如下所述。
日後推出的新版 Dataflow 可能會收取不同的服務費用,也可能提供相關服務的套裝方案。
Dataflow 的運算資源計費項目包括:
如要進一步瞭解可用地區及當中的區域,請參閱 Compute Engine 的地區和區域頁面。
每項 Dataflow 工作至少會使用一個 Dataflow 工作站。Dataflow 服務提供「批次」和「串流」兩種工作站,兩者的服務計費方式不同。
Dataflow 工作站會使用下列資源,而這些資源都是採取以秒計費的收費方式:
批次和串流工作站是特殊資源,會使用 Compute Engine。不過請放心,Dataflow 工作不會因為使用 Dataflow 服務代管的 Compute Engine 資源而產生 Compute Engine 費用。Dataflow 服務費用將會包含使用這些 Compute Engine 資源的費用。
您可以覆寫工作的預設工作站數量。如果使用自動調度資源功能,還可以指定分配給特定工作的工作站數量上限。系統會根據自動調度資源機制,自動新增和移除工作站及對應的資源。
此外,您還可以使用管道選項來覆寫分配給每個工作站及使用 GPU 的預設資源設定,例如機器類型、磁碟類型和磁碟大小。
Dataflow 也針對批次處理的 CPU 和記憶體提供費率較低的方案。彈性資源排程 (FlexRS) 在單一 Dataflow 工作站集區中結合了一般和先占 VM,讓使用者能存取更平價的處理資源。FlexRS 還會在 6 小時的時限內延後執行批次 Dataflow 工作,根據可用資源找出啟動工作的最佳時機。
雖然 Dataflow 會搭配不同種類的工作站來執行 FlexRS 工作,但無論工作站類型為何,CPU 和記憶體費用都會比一般 Dataflow 定價低約 40%。您可以指定 FlexRS 參數,藉此指示 Dataflow 在自動調度資源的批次管道上使用 FlexRS。
對於批次 pipeline,Dataflow 提供高擴充性功能 Dataflow Shuffle,可在工作站外部重組資料。詳情請參閱「Dataflow Shuffle」。
Dataflow Shuffle 是按照重組期間處理的資料量來計算費用。
對於串流 pipeline,Dataflow Streaming Engine 會將串流資料重組和狀態處理作業移出工作站 VM,並移入 Dataflow 服務後端。詳情請參閱「Streaming Engine」。
資源式計費會以 Streaming Engine 運算單元計算 Streaming Engine 資源用量。Dataflow 會計算每項工作使用的 Streaming Engine 資源,然後根據該工作使用的資源總量計費。如要為工作啟用資源式計費,請參閱「使用資源式計費」。採用資源式計費時,系統會自動套用現有折扣。
使用 Dataflow Prime 時,如果採用資源計費方式,系統會根據每項工作使用的資源總量計費,但會使用「資料運算單元 (DCU)」SKU,而非 Streaming Engine 運算單元 SKU。
Dataflow 仍支援舊版資料處理費用計費方式。除非您啟用資源式計費,否則工作會採用資料處理量計費。
Streaming Engine 的資料處理費用是依據處理的串流資料量計算,並取決於下列因素:
以下是處理位元組的範例:
Dataflow 運算資源定價 - 批次
下表列出 Batch 工作人員資源和 Shuffle 資料的處理費用詳細資料。
工作類型 | 預設 (美元) |
---|---|
CPU | US$0.056 / 1 hour |
記憶體 | US$0.003557 / 1 gibibyte hour |
Shuffle 期間處理的資料量 | US$0.011 / 1 gibibyte |
批次工作站預設配置:1 個 vCPU、3.75 GB 記憶體、250 GB 永久磁碟 (未使用 Dataflow Shuffle 時),25 GB 永久磁碟 (使用 Dataflow Shuffle 時)
Dataflow 運算資源定價 - FlexRS
下表列出 FlexRS 工作的工作人員資源和 Shuffle 資料處理的定價詳細資料。
資源 | 預設 (美元) |
---|---|
CPU | US$0.0336 / 1 hour |
記憶體 | US$0.0021342 / 1 gibibyte hour |
Shuffle 期間處理的資料量 | US$0.011 / 1 gibibyte |
FlexRS 工作站預設配置:2 個 vCPU、7.50 GB 的記憶體、每個工作站皆有 25 GB 的永久磁碟 (至少可使用兩個工作站)
下表列出串流工作的 worker 資源、Streaming Engine 處理的資料量 (舊版) 和 Streaming Engine 運算單元計費詳細資料。
資源 | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
CPU | US$0.069 / 1 hour | US$0.0552 / 1 hour | US$0.0414 / 1 hour |
記憶體 | US$0.003557 / 1 gibibyte hour | US$0.0028456 / 1 gibibyte hour | US$0.0021342 / 1 gibibyte hour |
Shuffle 期間處理的資料 | US$0.018 / 1 gibibyte | US$0.0144 / 1 gibibyte | US$0.0108 / 1 gibibyte |
Streaming Engine | US$0.089 / 1 count | US$0.0712 / 1 count | US$0.0534 / 1 count |
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。
3串流工作站預設配置:4 個 vCPU、15 GB 的記憶體、400 GB 的永久磁碟 (未使用 Streaming Engine 時),30 GB 的永久磁碟 (使用 Streaming Engine 時)。Dataflow 服務目前執行串流工作時,限制每個工作站執行個體只能使用 15 個永久磁碟。工作站和磁碟的資源配額比例至少要 1:1。
4重組資料集時,系統會調整讀取和寫入作業中處理的資料量,並依據調整項計算 Dataflow Shuffle 的費用。詳情請參閱 Dataflow Shuffle 定價詳細資料。Dataflow Shuffle 定價不適用於採用資源計費的 Streaming Engine 工作。
5Streaming Engine 運算單元:適用於使用 Streaming Engine 和資源計費模式的串流工作。這些工作不會針對隨機排序期間處理的資料收費。
系統會調整 Dataflow Shuffle 作業中處理的資料總量,並依據調整項計算各項 Dataflow 工作的費用。您實際為 Dataflow Shuffle 資料處理量支付的費用金額,等同於以原價處理較少量的資料 (少於 Dataflow 工作實際處理的資料量)。因此,會產生費用的 shuffle 資料處理量指標會小於 shuffle 資料處理總量指標。
下表說明調整項的套用方式:
Dataflow Shuffle 已處理的資料量 | 帳單調整 |
---|---|
前 250 GiB | 減少 75% |
接下來的 4870 GiB | 減少 50% |
超過 5,120 GiB (5 TiB) 的資料 | 無 |
舉例來說,假設您的管道總共透過 Dataflow Shuffle 處理了 1,024 GiB (1 TiB) 的資料,會產生費用的資料量即如下所示:
250 GiB * 25% + 774 GiB * 50% = 449.5 GiB * 該地區的 Dataflow Shuffle 資料處理費率
如果您的 pipeline 總共透過 Dataflow Shuffle 處理了 10240 GiB (10 TiB) 的資料,會產生費用的資料量即如下所示:
250 GiB * 25% + 4870 GiB * 50% + 5120 GiB = 7617.5 GiB
Dataflow Prime 是以 Dataflow 建構而成的資料處理平台,可提高資源使用率並改良分散式診斷功能。
Dataflow Prime 工作使用的運算資源,是以資料運算單元 (DCU) 數量計費。DCU 是指分配來執行 pipeline 的運算資源。Dataflow Prime 工作使用的其他 Dataflow 資源 (例如永久磁碟、GPU 和快照) 會另外計費。
如要進一步瞭解可用地區及當中的區域,請參閱 Compute Engine 的地區和區域頁面。
資料運算單元 (DCU) 是一種 Dataflow 用量計算單位,用於追蹤工作耗用的運算資源量。DCU 追蹤的資源包括 vCPU、記憶體、Dataflow Shuffle 資料處理量 (適用於批次工作) 和 Streaming Engine 資料處理量 (適用於串流工作)。耗用較多資源的工作與耗用較少資源的工作相比,DCU 用量較高。1 個 DCU 相當於以下 Dataflow 工作所使用的資源:在配備 1 個 vCPU 4 GB 的工作站上執行 1 個小時。
系統會根據工作耗用的 DCU 總數計費。單一 DCU 的價格會因批次或串流工作而異。使用 Dataflow Prime 時,如果採用資源計費,系統會根據使用的資源總量計費,而非處理的位元組數。
工作類型 | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
批次 | US$0.06 / 1 count | - | - |
串流 | US$0.089 / 1 count | US$0.0712 / 1 count | US$0.0534 / 1 count |
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。
您無法設定工作的 DCU 數量,Dataflow Prime 會計算 DCU。不過,您可以管理工作的下列層面,藉此減少 DCU 數量:
如要找出這些最佳化項目,請使用 Dataflow 監控介面和執行作業詳細資料介面。
在 Dataflow 中,系統會依據工作耗用的不同資源 (vCPU、記憶體、Persistent Disk) 以及 Dataflow Shuffle 或 Streaming Engine 處理的資料量收費。
資料運算單元會將儲存空間以外的所有資源整合成單一計量單位。系統會根據工作類型 (批次或串流) 向您收取永久磁碟資源和 DCU 耗用量的費用。詳情請參閱「使用 Dataflow Prime」。
現有批次和串流工作仍按照 Dataflow 模式繼續計費。將工作更新為使用 Dataflow Prime 後,工作就會採用 Dataflow Prime 定價模式,系統會依據永久磁碟資源和 DCU 用量向您收費。
Dataflow 和 Dataflow Prime 的儲存空間、GPU、快照和其他資源計費方式相同。
串流、批次和 FlexRS 工作的儲存資源計費方式相同。您可以使用管道選項變更預設磁碟大小或磁碟類型。Dataflow Prime 會根據下表定價,另外收取永久磁碟費用。
項目 | 預設 (美元) |
---|---|
儲存 - 標準永久磁碟 | US$0.000054 / 1 gibibyte hour |
儲存 - SSD 永久磁碟 | US$0.000298 / 1 gibibyte hour |
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。
Dataflow 服務目前執行串流工作時,限制每個工作站執行個體只能使用 15 個永久磁碟。每個永久磁碟都是各 Compute Engine 虛擬機器的本機。工作站和磁碟的資源配額比例至少要 1:1。
使用 Streaming Engine 的工作會使用 30 GB 開機磁碟。使用 Dataflow Shuffle 的工作會使用 25 GB 開機磁碟。對於未使用這些產品/服務的工作,每個永久磁碟的預設大小為批次模式 250 GB 和串流模式 400 GB。
Compute Engine 使用量是取工作站的平均值,永久磁碟使用量則是取 --maxNumWorkers 的確切值。系統會重新分配永久磁碟,使每個工作站都有相同數量的連接磁碟。
串流和批次工作的 GPU 資源計費方式相同。FlexRS 目前不支援 GPU。如要瞭解 GPU 可用的區域和可用區,請參閱 Compute Engine 說明文件中的「GPU regions and zones availability」一節。
項目 | 預設 (美元) |
---|---|
NVIDIA® Tesla® P100 GPU | US$1.752 / 1 hour |
NVIDIA® Tesla® V100 GPU | US$2.976 / 1 hour |
NVIDIA® Tesla® T4 GPU | US$0.42 / 1 hour |
NVIDIA® Tesla® P4 GPU | US$0.72 / 1 hour |
NVIDIA® Tesla® L4 GPU | US$0.672048 / 1 hour |
NVIDIA® Tesla® A100 (40 GB) GPU | US$3.72 / 1 hour |
NVIDIA® Tesla® A100 (80 GB) GPU | US$4.713696 / 1 hour |
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。
您可以透過快照儲存及還原管道狀態,藉此管理串流管道的可靠性。快照用量的計算依據為儲存的資料量,資料量則取決於下列因素:
如要建立串流工作的快照,您可以使用 Dataflow 控制台或 Google Cloud CLI。從快照建立工作來還原管道狀態無須支付額外費用。詳情請參閱「使用 Dataflow 快照」。
項目 | 預設 (美元) |
---|---|
儲存空間 | US$0.000205479 / 1 gibibyte hour |
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。
Dataflow 的機密 VM 會加密工作站 Compute Engine VM 上使用中的資料。詳情請參閱「Confidential VM 總覽」。
在 Dataflow 中使用機密 VM 會產生額外的固定費率費用,按每 vCPU 和每 GB 計費。
價格為全球通用,不會因 Google Cloud 區域而異。
項目 | 預設 (美元) |
---|---|
CPU | US$0.005479 / 1 hour |
記憶體 | US$0.0007342 / 1 gibibyte hour |
除了 Dataflow 用量之外,工作 「可能」也會耗用其他資源,系統會分別依據各項資源的計費方式向您收費,這類資源包括但不限於:
如要查看某項工作共使用了多少 vCPU、記憶體和永久磁碟資源,請前往「資源指標」下方的「工作資訊」面板。您可以在 Dataflow 監控介面中追蹤下列指標:
您可以使用「重組資料處理總量」指標評估 pipeline 成效,並依據「重組資料處理計費量」指標判斷 Dataflow 工作的費用。
在 Dataflow Prime 中,您可以在「資源指標」下方的「工作資訊」面板中,查看工作耗用的 DCU 總數。
您可以使用 Google Cloud Pricing Calculator 來瞭解帳單所列費用的計算方式。
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。