このページでは、Dataflow の料金について説明します。他のプロダクトの料金を確認するには、料金のドキュメントをご覧ください。
3 年間の確約で 40% の割引、1 年間の確約で 20% の割引を受ける方法については、確約利用割引(CUD)のページをご覧ください。
Dataflow の使用で課金対象となるのは、ジョブで使用するリソースです。使用する料金モデルに応じて、リソースの測定方法と課金方法が異なります。
| データ コンピューティング単位数(DCU) (バッチとストリーミング) |
データ コンピューティング単位数(DCU)
(バッチとストリーミング)
すべてのジョブに対して課金されるその他の Dataflow リソース には、永続ディスク、GPU、スナップショットなどがあります。
他のサービスのリソースが Dataflow ジョブに使用される場合があります。Dataflow で使用されるサービスには、BigQuery、Pub/Sub、Cloud Storage、Cloud Logging などがあります。
料金設定は時間単位ですが、Dataflow の使用料金はジョブごとに秒単位で課金されます。秒単位での使用に対して時間単位の料金設定を適用するため、使用時間は時間単位で表されます。たとえば、30 分は 0.5 時間です。ワーカーとジョブは、以降のセクションで説明するようにリソースを消費します。
Dataflow の今後のリリースでは、異なるサービス料や関連サービスのバンドルが導入される可能性があります。
コンピューティング リソースに対する Dataflow の課金には、次のコンポーネントが含まれます。
使用可能なリージョンとゾーンの詳細については、Compute Engine のリージョンとゾーンのページをご覧ください。
各 Dataflow ジョブは、少なくとも 1 つの Dataflow ワーカーを使用します。Dataflow サービスは、バッチとストリーミングの 2 つのワーカータイプを提供します。バッチワーカーとストリーミング ワーカーでは、それぞれ別のサービス料が設定されています。
Dataflow ワーカーは次のリソースを消費し、それぞれ秒単位で課金されます。
バッチワーカーとストリーミング ワーカーは、Compute Engine を使用する特殊なリソースです。一方、Dataflow ジョブでは Dataflow サービスによって管理される Compute Engine リソースに対して Compute Engine 課金が発生しません。Dataflow サービスの料金には、このような Compute Engine リソースの使用料金が含まれます。
ジョブのデフォルトのワーカー数をオーバーライドできます。自動スケーリングを使用している場合は、ジョブに割り当てられるワーカーの最大数を指定できます。ワーカーとそれに付随するリソースは、自動スケーリングの作動に基づいて自動的に追加および削除されます。
また、パイプライン オプションを使用して、各ワーカーに割り当てられ、GPU を使用するデフォルトのリソース設定(マシンタイプ、ディスクタイプ、ディスクサイズ)をオーバーライドできます。
Dataflow には、バッチ処理に使用する CPU とメモリに割引料金を適用できるオプションも用意されています。Flexible Resource Scheduling(FlexRS)では、処理リソースの使用料を抑えられるよう、通常の VM とプリエンプティブル VM を単一の Dataflow ワーカープールにまとめています。また、利用可能なリソースに基づいてジョブを開始するのに最適な時点を特定するために、FlexRS は 6 時間の枠内で Dataflow のバッチジョブの実行を遅延させます。
Dataflow では複数のワーカーを組み合わせて FlexRS ジョブを実行しますが、ワーカーのタイプにかかわらず、通常の Dataflow の料金と比べると、CPU とメモリの費用には約 40% の均一割引料金が適用されます。Dataflow で、自動スケーリングされるバッチ パイプラインに FlexRS を使用するには、FlexRS パラメータを指定します。
バッチ パイプラインの場合、Dataflow には、ワーカー外部でデータをシャッフルする、スケーラビリティの高い Dataflow Shuffle 機能が用意されています。詳しくは、Dataflow Shuffle をご覧ください。
Dataflow Shuffle の料金は、シャッフル中に処理されたデータの量に基づいて計算されます。
ストリーミング パイプラインの場合、Dataflow Streaming Engine は、ストリーミング シャッフルと状態処理をワーカー VM から Dataflow サービスのバックエンドに移動します。詳細については、Streaming Engine をご覧ください。
リソースベースの課金では、Streaming Engine リソースは Streaming Engine コンピューティング単位数で測定されます。Dataflow は、各ジョブが使用する Streaming Engine リソースを計測し、そのジョブが使用するリソースの合計に基づいて課金します。ジョブのリソースベースの課金を有効にするには、リソースベースの課金を使用するをご覧ください。リソースベースの課金を使用すると、既存の割引が自動的に適用されます。
リソースベースの課金で Dataflow Prime を使用する場合、各ジョブで使用されたリソースの合計に基づいて課金されますが、Streaming Engine コンピューティング単位数 SKU の代わりに Data Compute Unit(DCU) SKU が使用されます。
Dataflow は、従来のデータ処理量に基づく課金を引き続きサポートします。リソースベースの課金を有効にしない限り、ジョブはデータ処理課金を使用して課金されます。
Streaming Engine のデータ処理量に対する課金では、処理されたストリーミング データの量で使用量を測定します。この量は、次の要素によって異なります。
処理されたバイト数としてカウントされるものの例を以下に示します。
Dataflow コンピューティング リソースの料金 - バッチ
次の表に、Batch で処理されるワーカー リソースとシャッフルデータの料金の詳細を示します。
ジョブタイプ | デフォルト(米ドル) |
---|---|
CPU | $0.056 / 1 hour |
メモリ | $0.003557 / 1 gibibyte hour |
シャッフル中に処理されたデータ | $0.011 / 1 gibibyte |
バッチワーカーのデフォルト: vCPU 1 個、メモリ 3.75 GB、永続ディスク 250 GB(Dataflow Shuffle を使用しない場合)、永続ディスク 25 GB(Dataflow Shuffle を使用する場合)
Dataflow コンピューティング リソースの料金 - FlexRS
次の表に、FlexRS ジョブで処理されるワーカー リソースとシャッフルデータの料金の詳細を示します。
リソース | デフォルト(米ドル) |
---|---|
CPU | $0.0336 / 1 hour |
メモリ | $0.0021342 / 1 gibibyte hour |
シャッフル中に処理されたデータ | $0.011 / 1 gibibyte |
FlexRS ワーカーのデフォルト: 1 ワーカーあたり vCPU 2 個、メモリ 7.50 GB、永続ディスク 25 GB(最小 2 つのワーカー)
次の表に、ストリーミング ジョブのワーカー リソース、Streaming Engine のデータ処理量(旧)、Streaming Engine コンピューティング単位数の料金の詳細を示します。
リソース | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
CPU | $0.069 / 1 hour | $0.0552 / 1 hour | $0.0414 / 1 hour |
メモリ | $0.003557 / 1 gibibyte hour | $0.0028456 / 1 gibibyte hour | $0.0021342 / 1 gibibyte hour |
シャッフル中に処理されるデータ | $0.018 / 1 gibibyte | $0.0144 / 1 gibibyte | $0.0108 / 1 gibibyte |
Streaming Engine | $0.089 / 1 count | $0.0712 / 1 count | $0.0534 / 1 count |
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
3ストリーミング ワーカーのデフォルト: Streaming Engine を使用しない場合は vCPU 4 個、メモリ 15 GB、永続ディスク 400 GB。Streaming Engine を使用する場合は永続ディスク 30 GB。Dataflow サービスは、ストリーミング ジョブの実行時に、ワーカー インスタンスあたり 15 個の永続ディスクに制限されています。リソース割り当てでは、ワーカーとディスクの 1:1 の比率が最小要件になります。
4Dataflow Shuffle の料金は、データセットのシャッフルの読み取り操作と書き込み操作で処理されたデータの量に適用されるボリューム調整に基づいて計算されます。詳しくは、Dataflow Shuffle 料金の詳細をご覧ください。リソースベースの課金を使用する Streaming Engine ジョブには、Dataflow Shuffle の料金は適用されません。
5Streaming Engine コンピューティング単位数: Streaming Engine とリソースベースの課金モデルを使用するストリーミング ジョブの場合。これらのジョブでは、シャッフル中に処理されたデータに対して課金されません。
Dataflow Shuffle によるデータの処理 | 請求額の調整 |
---|---|
最初の 250 GiB | 75% 削減 |
次の 4,870 GiB | 50% 削減 |
5,120 GiB(5 TiB)を超えた分 | なし |
たとえば、パイプラインで合計 1,024 GiB(1 TiB)の Dataflow Shuffle データを処理した場合、請求額は次のように計算されます。
250 GiB × 25% + 774 GiB × 50% = 449.5 GiB × リージョンの Dataflow Shuffle データ処理レート
合計 10, 240 GiB(10 TiB)の Dataflow Shuffle データを処理した場合、課金対象のデータ量は次のようになります。
250 GiB × 25% + 4,870 GiB × 50% + 5,120 GiB = 7,617.5 GiB
Dataflow Prime は、Dataflow を基盤とするデータ処理プラットフォームであり、リソース使用率と分散診断が改善されています。
Dataflow Prime ジョブで使用されるコンピューティング リソースの料金は、Data Compute Unit(DCU)の数によって決まります。DCU は、パイプラインを実行するために割り当てられるコンピューティング リソースを表します。Dataflow Prime ジョブで使用されるその他の Dataflow リソース(永続ディスク、GPU、スナップショットなど)は別途課金されます。
使用可能なリージョンとゾーンの詳細については、Compute Engine のリージョンとゾーンのページをご覧ください。
データ コンピューティング ユニット(DCU)は、ジョブによって消費されたコンピューティング リソースの数を追跡するための、Dataflow 使用状況測定ユニットです。DCU で追跡されるリソースには、vCPU、メモリ、処理された Dataflow Shuffle データ(バッチジョブの場合)、処理された Streaming Engine データ(ストリーミング ジョブの場合)などがあります。リソース消費量が多いジョブほど、リソース消費量が少ないジョブよりも DCU 使用量が多くなります。1 DCU は、1 個の vCPU および 4 GB ワーカーの条件で 1 時間実行される Dataflow ジョブで使用されるリソースに相当します。
ジョブが消費した DCU の合計数に対して課金されます。単一の DCU の料金は、バッチジョブかストリーミング ジョブかによって異なります。リソースベースの課金で Dataflow Prime を使用する場合、処理されたバイト数ではなく、使用されたリソースの合計に基づいて課金されます。
ジョブタイプ | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
バッチ | $0.06 / 1 count | - | - |
ストリーミング | $0.089 / 1 count | $0.0712 / 1 count | $0.0534 / 1 count |
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
ジョブの DCU 数は設定できません。DCU は Dataflow Prime によってカウントされます。ただし、ジョブの次の側面を管理することで、消費される DCU の数を減らすことができます。
これらの最適化を特定するには、Dataflow モニタリング インターフェースと実行の詳細インターフェースを使用します。
Dataflow では、ジョブが使用する異種リソース(vCPU、メモリ、Persistent Disk、Dataflow Shuffle や Streaming Engine によって処理されたデータ量など)について課金されます。
データ コンピューティング ユニットは、ストレージを除くすべてのリソースを 1 つの測定単位に統合します。永続ディスク リソースと、ジョブの種類(バッチまたはストリーミング)に基づいて消費された DCU の数が課金されます。詳細については、Dataflow Prime の使用をご覧ください。
既存のバッチジョブとストリーミング ジョブは引き続き Dataflow モデルを使用して課金されます。Dataflow Prime を使用するようにジョブを更新すると、ジョブは Dataflow Prime の料金モデルを使用するようになり、永続ディスク リソースと消費された DCU に対して課金されます。
ストレージ、GPU、スナップショット、その他のリソースは、Dataflow と Dataflow Prime で同じように課金されます。
ストレージ リソースは、ストリーミング、バッチ、FlexRS ジョブと同じレートで課金されます。パイプライン オプションを使用して、デフォルトのディスクサイズまたはディスクタイプを変更できます。Dataflow Prime では、次の表の料金に基づいて永続ディスクが個別に課金されます。
項目 | デフォルト(米ドル) |
---|---|
ストレージ - 標準永続ディスク | $0.000054 / 1 gibibyte hour |
ストレージ - SSD 永続ディスク | $0.000298 / 1 gibibyte hour |
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
Dataflow サービスは、ストリーミング ジョブの実行時に、ワーカー インスタンスあたり 15 個の永続ディスクに制限されています。各永続ディスクは、個々の Compute Engine 仮想マシンに対してローカルです。リソース割り当てでは、ワーカーとディスクの 1:1 の比率が最小要件になります。
Streaming Engine を使用するジョブでは、30 GB のブートディスクが使用されます。Dataflow Shuffle を使用するジョブでは、25 GB のブートディスクが使用されます。これらの製品を使用していないジョブの場合、各永続ディスクのデフォルト サイズはバッチモードで 250 GB、ストリーミング モードで 400 GB です。
Compute Engine の使用量は平均ワーカー数に基づき、永続ディスクの使用量は --maxNumWorkers の値に基づきます。永続ディスクは、各ワーカーにアタッチされたディスク数が等しくなるように再配布されます。
GPU リソースは、ストリーミング ジョブとバッチジョブで同じ料金で課金されます。現在、FlexRS は GPU をサポートしていません。GPU で使用可能なリージョンとゾーンについては、Compute Engine ドキュメントの GPU のリージョンとゾーンの可用性 をご覧ください。
項目 | デフォルト(米ドル) |
---|---|
NVIDIA® Tesla® P100 GPU | $1.752 / 1 hour |
NVIDIA® Tesla® V100 GPU | $2.976 / 1 hour |
NVIDIA® Tesla® T4 GPU | $0.42 / 1 hour |
NVIDIA® Tesla® P4 GPU | $0.72 / 1 hour |
NVIDIA® Tesla® L4 GPU | $0.672048 / 1 hour |
NVIDIA® Tesla® A100(40 GB)GPU | $3.72 / 1 hour |
NVIDIA® Tesla® A100(80 GB)GPU | $4.713696 / 1 hour |
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
ストリーミング パイプラインの信頼性を管理するため、スナップショットを使用してパイプラインの状態を保存して復元できます。スナップショットの使用量は、保存されたデータ量によって課金されますが、これは次の要因に依存します。
Dataflow コンソールまたは Google Cloud CLI を使用して、ストリーミング ジョブのスナップショットを取得できます。スナップショットからジョブを作成して、パイプラインの状態を復元する場合、追加料金は発生しません。詳細については、Dataflow スナップショットの使用をご覧ください。
項目 | デフォルト(米ドル) |
---|---|
ストレージ | $0.000205479 / 1 gibibyte hour |
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
Dataflow の Confidential VM は、ワーカー Compute Engine VM で使用中のデータを暗号化します。詳しくは、Confidential VMs の概要をご覧ください。
Dataflow で Confidential VMs を使用すると、定額の vCPU あたりの料金と GB あたりの料金が追加で発生します。
料金は全世界共通で、Google Cloud リージョンによって変わることはありません。
項目 | デフォルト(米ドル) |
---|---|
CPU | $0.005479 / 1 hour |
メモリ | $0.0007342 / 1 gibibyte hour |
Dataflow の使用に加え、ジョブで次のリソースが消費される可能性もあります(ただし、これらに限定されません)。これらのリソースは、それぞれ独自の料金設定で課金されます。
ジョブに関連する vCPU、メモリ、永続ディスク リソースの合計使用量は、[リソース指標] の下の [ジョブ情報] パネルで確認できます。Dataflow Monitoring Interface で次の指標を追跡できます。
処理されたシャッフル データの合計指標を使用してパイプラインのパフォーマンスを評価し、請求対象のシャッフル データ処理量指標を使用して Dataflow ジョブの費用を判断できます。
Dataflow Prime の場合、ジョブで消費された DCU の合計数は、[リソース指標] の [ジョブ情報] パネルで確認できます。
Google Cloud 料金計算ツールを使用すると、請求金額の算出方法を確認できます。
米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。