總覽
ELT (擷取、載入、轉換) 是 Google Cloud 建議的資料整合模式。ELT 的做法是從來源系統擷取資料,將資料載入 BigQuery,然後轉換成所需格式進行分析。ELT 方法可讓您透過 BigQuery 的完整功能執行資料轉換,並讓任何 SQL 使用者都能有效地開發資料整合管道。而與此不同的是,ETL (擷取、轉換、載入) 則是在資料載入 data warehouse 之前,就轉換資料。
ELT 做法提供以資料為主的熟悉架構,可縮短學習曲線,進而加快上市時間。ELT 也無須個別的 ETL 基礎架構,因此可降低載入前轉換資料的相關費用。
BigQuery 的架構可大幅擴充並進行平行處理,因此能有效處理大型資料集和複雜的轉換作業。ELT 會將資料集中在 BigQuery 中,並確保一致的資料品質和平台內建的安全性政策,有助於資料治理。
BigQuery 支援各種資料來源和格式,包括 Apache Iceberg,可讓您彈性整合各種資料。除了資料選擇外,您還可以彈性選擇語言。ELT 的主要優點是 SQL 可用於多個 SDLC 管道。
將資料匯入 BigQuery
將資料匯入 BigQuery | BigQuery 搭配 ELT 的資料整合途徑。 |
---|---|
階段 | 解決方法 |
擷取及載入 | 批次載入:BigQuery 資料移轉服務 (DTS) 會自動將資料從支援的資料來源大量載入 BigQuery。 串流載入:Pub/Sub BigQuery 訂閱項目會在收到 Pub/Sub 訊息時,將訊息寫入現有的 BigQuery 資料表。 變更資料擷取 (CDC):Datastream 可讓您進行不會產生干擾的變更資料擷取作業 (CDC),將資料從資料庫擷取至 BigQuery。 與外部資料來源整合:BigQuery 支援與多個外部資料來源整合,且不需移動資料。 |
轉換 | BigQuery 的轉換功能是使用 Dataform 建構而成,這項工具可讓使用者透過 BigQuery data manipulation language (DML) 共同建構、測試及記錄 SQL 資料轉換。為協助您輕鬆轉換資料,我們打造了兩項強大的 Dataform 功能: AI 輔助的資料轉換:BigQuery 資料準備功能 (預先發布版) 提供智慧型建議,協助您清理、轉換及補充資料,進而減少資料準備作業所需的時間和心力。 以 SQL 為基礎的視覺化資料轉換:BigQuery Workflows (預先發布版) 提供視覺化使用者體驗,讓您以互動方式建構簡單的工作流程。 |
大規模遷移資料 | 除了上述模式之外,遷移至 Google Cloud 可能還需要將現有 data warehouse 的大量資料遷移至 BigQuery。BigQuery 遷移服務是一項全代管服務,可讓客戶將現有的 data warehouse 載入 BigQuery,以便進一步分析資料。 |
將資料匯入 BigQuery
BigQuery 搭配 ELT 的資料整合途徑。
擷取及載入
批次載入:BigQuery 資料移轉服務 (DTS) 會自動將資料從支援的資料來源大量載入 BigQuery。
串流載入:Pub/Sub BigQuery 訂閱項目會在收到 Pub/Sub 訊息時,將訊息寫入現有的 BigQuery 資料表。
變更資料擷取 (CDC):Datastream 可讓您進行不會產生干擾的變更資料擷取作業 (CDC),將資料從資料庫擷取至 BigQuery。
與外部資料來源整合:BigQuery 支援與多個外部資料來源整合,且不需移動資料。
轉換
BigQuery 的轉換功能是使用 Dataform 建構而成,這項工具可讓使用者透過 BigQuery data manipulation language (DML) 共同建構、測試及記錄 SQL 資料轉換。為協助您輕鬆轉換資料,我們打造了兩項強大的 Dataform 功能:
AI 輔助的資料轉換:BigQuery 資料準備功能 (預先發布版) 提供智慧型建議,協助您清理、轉換及補充資料,進而減少資料準備作業所需的時間和心力。
以 SQL 為基礎的視覺化資料轉換:BigQuery Workflows (預先發布版) 提供視覺化使用者體驗,讓您以互動方式建構簡單的工作流程。
大規模遷移資料
除了上述模式之外,遷移至 Google Cloud 可能還需要將現有 data warehouse 的大量資料遷移至 BigQuery。BigQuery 遷移服務是一項全代管服務,可讓客戶將現有的 data warehouse 載入 BigQuery,以便進一步分析資料。
常見用途