这是indexloc提供的服务,不要输入任何密码

データ統合と ELT

Google Cloud のフルマネージド データ プラットフォームである BigQuery は、データ統合と分析のための費用対効果に優れたスケーラブルなソリューションです。

概要

BigQuery を使用したデータ統合と ELT

ELT(抽出、読み込み、変換)は、Google Cloud が推奨するデータ統合パターンです。ELT では、ソースシステムからデータを抽出し、BigQuery に読み込み、分析に使用する形式に変換します。データ ウェアハウスに読み込む前にデータを変換する ETL(抽出、変換、読み込み)とは異なり、ELT アプローチでは、BigQuery の機能をフル活用してデータ変換を実施し、SQL ユーザーがデータ統合パイプラインを効果的に開発することができます。

ELT による製品化までの時間の短縮と費用の削減

ELT アプローチは、学習曲線を最小限に抑える、データ中心の使い慣れたフレームワークを提供することで、製品化までの時間を短縮します。また、ELT では、ETL インフラストラクチャを別途用意する必要がないため、読み込み前のデータを変換する際にかかる費用を削減できます。

組み込みのガバナンスによるスケーラビリティとパフォーマンス

BigQuery のアーキテクチャは、大規模なスケーラビリティと並列処理を可能にし、大規模なデータセットと複雑な変換を効率的に処理できるようにします。ELT は、BigQuery にデータを一元化してデータ ガバナンスを促進し、プラットフォームに組み込まれた整合性のあるデータ品質とセキュリティ ポリシーを実現します。

柔軟性と選択肢を備えたデータ統合

BigQuery は、Apache Iceberg などのさまざまなデータソースと形式をサポートしており、多様なデータを柔軟に統合できます。データの選択に加えて、言語の選択も柔軟に行えます。ELT の主なメリットは、SQL が多数の SDLC パイプラインに適合することです。


BigQuery へのデータの移行

BigQuery へのデータの移行BigQuery のデータ統合パスと ELT
ステージ解決策

抽出と読み込み

バッチ読み込みBigQuery Data Transfer Service(DTS)は、サポートされているデータソースから BigQuery へのデータの一括読み込みを自動化します。

ストリーミング読み込み: Pub/Sub BigQuery サブスクリプションは、受信した Pub/Sub メッセージを既存の BigQuery テーブルに書き込みます。

変更データ キャプチャ(CDC)Datastream は、データベースから BigQuery への非干渉型の変更データ キャプチャ(CDC)を可能にします。

外部データソースへの連携: BigQuery は、データの移動を必要としない外部データソースへの連携をサポートしています。

変換

BigQuery の変換機能は、BigQuery データ操作言語(DML)を使用して SQL データ変換を共同で構築、テスト、文書化するためのツールである Dataform で構築されています。お客様がデータを簡単に変換できるように、Dataform を活用した 2 つの優れたエクスペリエンスを用意しました。

AI によるデータ変換: BigQuery のデータ準備(プレビュー版)は、データのクリーニング、変換、拡充のためのインテリジェントな提案を提供します。これにより、データ準備タスクに必要な時間と労力を削減できます。

SQL ベースの視覚的データ変換: BigQuery ワークフロー(プレビュー版)は、シンプルなワークフローをインタラクティブに構築するための視覚的なユーザー エクスペリエンスを提供します。

大規模なデータ移行

上記のパターンに加えて、Google Cloud への移行には、既存のデータ ウェアハウスから BigQuery への大量データの移行が伴う場合があります。 BigQuery Migration Service  は、お客様が既存のデータ ウェアハウスを BigQuery に読み込んで、さらなるデータ分析を行うことができるフルマネージド サービスです。

BigQuery へのデータの移行

BigQuery のデータ統合パスと ELT

抽出と読み込み

解決策

バッチ読み込みBigQuery Data Transfer Service(DTS)は、サポートされているデータソースから BigQuery へのデータの一括読み込みを自動化します。

ストリーミング読み込み: Pub/Sub BigQuery サブスクリプションは、受信した Pub/Sub メッセージを既存の BigQuery テーブルに書き込みます。

変更データ キャプチャ(CDC)Datastream は、データベースから BigQuery への非干渉型の変更データ キャプチャ(CDC)を可能にします。

外部データソースへの連携: BigQuery は、データの移動を必要としない外部データソースへの連携をサポートしています。

変換

解決策

BigQuery の変換機能は、BigQuery データ操作言語(DML)を使用して SQL データ変換を共同で構築、テスト、文書化するためのツールである Dataform で構築されています。お客様がデータを簡単に変換できるように、Dataform を活用した 2 つの優れたエクスペリエンスを用意しました。

AI によるデータ変換: BigQuery のデータ準備(プレビュー版)は、データのクリーニング、変換、拡充のためのインテリジェントな提案を提供します。これにより、データ準備タスクに必要な時間と労力を削減できます。

SQL ベースの視覚的データ変換: BigQuery ワークフロー(プレビュー版)は、シンプルなワークフローをインタラクティブに構築するための視覚的なユーザー エクスペリエンスを提供します。

大規模なデータ移行

解決策

上記のパターンに加えて、Google Cloud への移行には、既存のデータ ウェアハウスから BigQuery への大量データの移行が伴う場合があります。 BigQuery Migration Service  は、お客様が既存のデータ ウェアハウスを BigQuery に読み込んで、さらなるデータ分析を行うことができるフルマネージド サービスです。

仕組み

BigQuery は、データ エンジニアとアプリケーション デベロッパーに対し、パイプラインの構築、スケジュール設定、管理を支援する豊富なプロダクトと機能のポートフォリオを提供します。幅広いサービスにより、ETL と ELT のパラダイムから柔軟に選択できます。


ETL と ELT の比較
ELT と ETL の違いについてはこちらの動画をご覧ください

一般的な使用例

BigQuery を使用したエンドツーエンドのデータ統合

データ統合アーキテクチャ

BigQuery は、AI 対応の統合データ プラットフォームであり、企業のすべてのデータを AI と接続できます。BigQuery は、バッチ、ストリーミング、変更データ キャプチャ(CDC)を使用して、さまざまなソース(メッセージング、データベースなど)からデータを取り込みます。BigQuery は、AI を搭載した変換レイヤと、分析のための統合されたユーザー エクスペリエンスにより、データの保存、計算、管理を行います。


BigQuery のデータ統合アーキテクチャ

    データ統合アーキテクチャ

    BigQuery は、AI 対応の統合データ プラットフォームであり、企業のすべてのデータを AI と接続できます。BigQuery は、バッチ、ストリーミング、変更データ キャプチャ(CDC)を使用して、さまざまなソース(メッセージング、データベースなど)からデータを取り込みます。BigQuery は、AI を搭載した変換レイヤと、分析のための統合されたユーザー エクスペリエンスにより、データの保存、計算、管理を行います。


    BigQuery のデータ統合アーキテクチャ

      ELT パイプラインの構築

      Google Cloud によるスケーラブルな ELT パイプラインの構築

      Google Cloud で強力な ELT パイプラインを構築する:

      1. データソースを選択: オンプレミス、クラウドアプリなど。
      2. データの取り込み: リアルタイムの場合は Datastream を使用し、完全読み込みの場合は BigQuery Data Transfer Service を使用します。
      3. データを変換: データ準備でデータをクリーンアップするか、Dataform でパイプラインを構築します。
      4. Looker Studio で可視化: レポートとダッシュボードを作成します。

      この設定により、包括的な分析のためのスケーラビリティ、リアルタイム機能、効率的なデータ変換が実現します。

      ELT パイプライン アーキテクチャを構築する

        Google Cloud によるスケーラブルな ELT パイプラインの構築

        Google Cloud で強力な ELT パイプラインを構築する:

        1. データソースを選択: オンプレミス、クラウドアプリなど。
        2. データの取り込み: リアルタイムの場合は Datastream を使用し、完全読み込みの場合は BigQuery Data Transfer Service を使用します。
        3. データを変換: データ準備でデータをクリーンアップするか、Dataform でパイプラインを構築します。
        4. Looker Studio で可視化: レポートとダッシュボードを作成します。

        この設定により、包括的な分析のためのスケーラビリティ、リアルタイム機能、効率的なデータ変換が実現します。

        ELT パイプライン アーキテクチャを構築する
          ソリューションの生成
          解決したい問題は何ですか?
          What you'll get:
          手順ガイド
          リファレンス アーキテクチャ
          利用可能な事前構築済みソリューション
          このサービスは Vertex AI を使用して構築されました。ご利用いただけるのは 18 歳以上のユーザーのみです。機密情報や個人情報は入力しないでください。

          概念実証を開始する

          BigQuery を使ってみる

          大規模なプロジェクトがある場合は、

          Google Cloud によるデータ統合

          ETL によるデータ統合アプローチ

          データ統合パートナーを探す

          • Google Cloud プロダクト
          • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
          Google Cloud