あらゆる組織が、ビッグデータのボリューム、レイテンシ、復元性、データアクセス要件を管理するためのストレージ ソリューションを探しています。当初、企業は既存の技術スタックを利用して、データレイクでウェアハウスと同じ機能を実現したり、データ ウェアハウスを調整して大量の半構造化データを処理したり、あるいがその両方にデータを保持しようとしたりしていました。
最終的に、これらのアプローチは高額な費用、ユーザーの不満、ビジネス全体でのデータの重複という結果につながりました。データ レイクハウスは、新しいハイブリッド データ アーキテクチャとして登場しました。このアーキテクチャは、データ ウェアハウスとデータレイクのあらゆるメリットを享受しながら、両方のシステムの弱点を排除することを目的としています。
Google Cloud は、低コストのストレージ、サーバーレス コンピューティング エンジン、高度なデータ マネジメント サービスを基盤とする、クラウドネイティブでスケーラビリティと安全性に優れたデータ レイクハウス ソリューションを提供します。Google Cloud でオープン データ レイクハウスを構築する方法について詳しくご覧ください。
データレイクハウスは、データレイクとデータ ウェアハウスを融合させたデータ アーキテクチャです。データ レイクハウスは、組織が構造化、非構造化、半構造化のすべてのタイプのデータに低コストで柔軟なストレージを活用するとともに、データ構造とデータ マネジメントの機能を提供することで、ML、ビジネス インテリジェンス、予測分析を可能にします。
データ レイクハウスは、データレイク(元の形式のままの元データの大型リポジトリ)とデータ ウェアハウス(整理された構造化データのセット)の主要な利点を組み合わせて単一のプラットフォームを構築する、最新のデータ アーキテクチャです。具体的には、データ レイクハウスにより、組織は低コストのストレージを使用して大量の元データを保存しながら、構造とデータ マネジメント 機能を提供できます。
従来、データ ウェアハウスとデータレイクは、基盤となるシステムへの過負荷や、同じリソースの競合の発生を避けるために、別々のサイロ化されたアーキテクチャとして実装する必要がありました。企業は、ビジネス インテリジェンス(BI)とレポート用の構造化データを保存するためにデータ ウェアハウスを使用し、人工知能(AI)と機械学習(ML)ワークロード用の非構造化データと半構造化データを保存するためにデータレイクを使用していました。しかし、このアプローチでは、両方のアーキテクチャのデータを一緒に処理する必要がある場合に 2 つの別々のシステム間でデータを定期的に移行する必要があるため、複雑さ、費用の増加、データの更新速度、重複、整合性に関する問題が発生していました。
データ レイクハウスは、こうしたサイロを解消し、データが非効率性ではなくビジネスに価値をもたらすようにするために必要な柔軟性、スケーラビリティ、アジリティを提供することを目的としています。
「データ レイクハウス」という用語は、データ ウェアハウスとデータレイクという 2 種類の既存のデータ リポジトリをまとめたものです。では、データ レイクハウス、データレイク、データ ウェアハウスの具体的な違いは何でしょうか?
データ ウェアハウスは、意思決定のためのレポートや分析情報を生成する必要があるビジネス ユーザーに、データにすばやくアクセスし、SQL との互換性を提供します。すべてのデータに ETL(抽出、変換、読み込み)フェーズを経る必要がある。つまり、読み込み前にユースケースに基づいて特定の形式(スキーマ)に最適化されるため、高パフォーマンスのクエリとデータの完全性がサポートされるようになります。しかし、このアプローチではデータへのアクセスの柔軟性が制限され、今後使用するためにデータを移動する必要がある場合に余分なコストが発生します。
データレイク には、大量の非構造化データと構造化データがネイティブ形式で保存されます。データ ウェアハウスとは異なり、データは分析中に処理、クリーンアップ、変換されるため、読み込み速度が速くなり、ビッグデータの処理、ML、予測分析に最適です。しかし、データ サイエンスの専門知識が必要なため、データを使用できる人員が限られており、適切に管理されていないと、時間の経過とともにデータ品質が低下する可能性があります。また、データレイクでは、データが未処理であるため、リアルタイム クエリを取得するのが難しくなります。そのため、データを使用する前にクリーニング、処理、取り込み、統合が必要になる可能性があります。
データ レイクハウスは、これらの 2 つのアプローチを統合して、BI からデータ サイエンス、AI、ML まで、さまざまな目的でデータにアクセスして活用できる単一の構造を作成します。つまり、データ レイクハウスは、組織のすべての非構造化データ、構造化データ、半構造化データをキャプチャして低コストのストレージに保存するとともに、すべてのユーザーがニーズに応じてデータを整理、探索できる機能を提供します。
データ レイクハウスの主な特長は次のとおりです。
データ レイクハウスを機能させるには、何を達成しようとしているのかを考慮することが重要です。データ レイクハウスは、異種データソースを一元化し、組織内の誰もがデータユーザーになれるようにエンジニアリング作業を簡素化することを目的としています。
データ レイクハウスは、データレイクと同じ低コストのクラウド オブジェクト ストレージを使用して、簡単にプロビジョニングとスケーリングを行えるオンデマンド ストレージを提供します。データレイクと同様に、あらゆるタイプの大量のデータを未加工の形でキャプチャして保存できます。レイクハウスはこのストアにメタデータ レイヤを統合し、構造化スキーマ、ACID トランザクションのサポート、データ ガバナンス、その他のデータ マネジメントや最適化機能など、ウェアハウスのような機能を提供します。
アーキテクチャの簡素化 データ レイクハウスによって 2 つの異なるプラットフォームのサイロが解消されるため、ユーザーは単一のデータ リポジトリの管理と維持のみに集中できます。ツールはソースデータに直接接続できるため、データ ウェアハウスで使用するデータの抽出や準備を行う必要はありません。 | データ品質の改善 データ レイクハウス アーキテクチャでは、構造化データとデータの完全性を確保するためのスキーマを適用できるため、整合性を確保できます。さらに、レイクハウスにより、新しいデータが利用可能になるまでの時間が短縮され、より最新のデータを確保できます。 | コスト削減 大量のデータを低コストのストレージに保存できるため、データ ウェアハウスとデータレイクの両方を維持する必要がなくなります。データ レイクハウスは、ETL プロセスと重複排除の費用を削減するのにも役立ちます。 |
信頼性の向上 データ レイクハウスは、複数システム間の ETL データ転送を削減し、データの移動時に品質や技術上の問題が発生する可能性を低減します。 | データ ガバナンスの向上 データとリソースがデータ レイクハウスを使用して 1 か所に統合され、ガバナンスとセキュリティ管理の実装、テスト、提供が容易になります。 | データの重複が削減される 異なるシステムに存在するデータのコピーが多いほど、一貫性がなく、信頼性が低くなる可能性が高くなります。データ レイクハウスを使用すると、意思決定のためにビジネス全体で共有できる単一のデータソースを実現し、データの重複による不整合や余分なストレージ コストを防ぐことができます。 |
多様なワークロード 複数のツールをレイクハウスに直接接続して、同じリポジトリから分析、SQL、ML、データ サイエンスのワークロードをサポートできます。 | 高度なスケーラビリティ データ レイクハウスは低コストのクラウド オブジェクト ストレージであるため、コンピューティングをストレージから切り離して、ほぼ無制限かつ即時のスケーラビリティを提供できます。ビジネスニーズに応じて、コンピューティング能力とストレージを別々にスケーリングできます。 |
アーキテクチャの簡素化
データ レイクハウスによって 2 つの異なるプラットフォームのサイロが解消されるため、ユーザーは単一のデータ リポジトリの管理と維持のみに集中できます。ツールはソースデータに直接接続できるため、データ ウェアハウスで使用するデータの抽出や準備を行う必要はありません。
データ品質の改善
データ レイクハウス アーキテクチャでは、構造化データとデータの完全性を確保するためのスキーマを適用できるため、整合性を確保できます。さらに、レイクハウスにより、新しいデータが利用可能になるまでの時間が短縮され、より最新のデータを確保できます。
コスト削減
大量のデータを低コストのストレージに保存できるため、データ ウェアハウスとデータレイクの両方を維持する必要がなくなります。データ レイクハウスは、ETL プロセスと重複排除の費用を削減するのにも役立ちます。
信頼性の向上
データ レイクハウスは、複数システム間の ETL データ転送を削減し、データの移動時に品質や技術上の問題が発生する可能性を低減します。
データ ガバナンスの向上
データとリソースがデータ レイクハウスを使用して 1 か所に統合され、ガバナンスとセキュリティ管理の実装、テスト、提供が容易になります。
データの重複が削減される
異なるシステムに存在するデータのコピーが多いほど、一貫性がなく、信頼性が低くなる可能性が高くなります。データ レイクハウスを使用すると、意思決定のためにビジネス全体で共有できる単一のデータソースを実現し、データの重複による不整合や余分なストレージ コストを防ぐことができます。
多様なワークロード
複数のツールをレイクハウスに直接接続して、同じリポジトリから分析、SQL、ML、データ サイエンスのワークロードをサポートできます。
高度なスケーラビリティ
データ レイクハウスは低コストのクラウド オブジェクト ストレージであるため、コンピューティングをストレージから切り離して、ほぼ無制限かつ即時のスケーラビリティを提供できます。ビジネスニーズに応じて、コンピューティング能力とストレージを別々にスケーリングできます。
データ レイクハウスのコンセプトは、データ ストレージの究極の柔軟性と、データ処理エンジンや分析エンジンとの選択肢と相互運用性の拡大を求める組織の要望に応える形で、時間の経過とともに進化してきました。さらに、データ レイクハウスはゼロから構築するには複雑であり、現在は AI 機能と深く連携させる必要があります。ほとんどの場合、すぐに使えるデータ レイクハウス ソリューションを選択するか、オープンのレイクハウス アーキテクチャをサポートするために必要なコンポーネントをすべて提供する Google Cloud のようなプラットフォームを使用する必要があります。
データ レイクハウスのアーキテクチャは、次のレイヤで構成されています。
Apache Iceberg は、ACID トランザクション、スキーマの進化、タイムトラベルなどのデータ ウェアハウスのような機能をオブジェクト ストレージに保存されたデータレイクに直接もたらすオープン テーブル形式を提供することで、レイクハウス アーキテクチャに革命をもたらします。これにより、企業は、さまざまな分析エンジンで相互運用可能で、ベンダー ロックインを回避できる、スケーラビリティに優れた高パフォーマンスで柔軟なデータ プラットフォームを構築できます。
Google Cloud のアプローチは、BigLake を活用したオープンで管理された高パフォーマンスなデータ レイクハウスを企業に提供することです。統合ストレージ エンジンは、Cloud Storage で Apache Iceberg のネイティブ実装を提供し、Iceberg データでオープンソース エンジンを直接活用できます。BigLake Metastore はデータ マネジメントを簡素化し、Dataplex ユニバーサル カタログと統合して統合ガバナンスを実現します。きめ細かなアクセス制御を適用し、分散データ全体でクエリのパフォーマンスを高めます。
このアプローチは、Iceberg による高度な分析、ストリーミング、AI/ML ワークロードをサポートする、マネージド型の高パフォーマンス データ レイクハウスの中心にある BigQuery のストレージやコンピューティング能力と組み合わせることができます。BigQuery は Google Cloud エコシステムと統合されているだけでなく、パートナー テクノロジーやオープンソース テクノロジーを使用して、データレイクとデータ ウェアハウスの機能を 1 つのシステムにまとめることもできます。