这是indexloc提供的服务,不要输入任何密码

什么是 ETL?

ETL 代表提取、转换和加载,是组织将多个系统中的数据合并到单个数据库、数据存储区、数据仓库或数据湖中的传统方法。ETL 可用于存储旧数据,也可用于汇总数据以进行分析并制定业务决策(这是如今更为常见的用途)。  

几十年来,组织一直都在使用 ETL。但新趋势是,数据源以及目标数据库现在都在向云端迁移。

此外,我们还看到了流式 ETL 流水线的出现,现在,流式 ETL 流水线与批处理流水线是统一的,即实时处理连续数据流的流水线与汇总批处理数据的流水线。一些企业通过结合批量回填或再处理流水线来运行连续的流处理流程。

了解支持 ETL 的 Google Cloud 服务组合,包括 BigQuery Data Transfer ServiceDataflowDataform

准备好开始了吗?新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。

视频:使用 Dataflow 进行实时 ETL 和集成
使用 Dataflow 进行实时 ETL 和集成

ETL 的定义

ETL 描述的是一个端到端流程,在此流程中,公司获取所有数据(由世界上任何地方任何数量的团队管理的结构化和非结构化数据),然后对其进行处理,将其转换为对业务目的有用的数据。

当今的现代化 ETL 解决方案必须应对不断增长的数据量和速度。此外,能够从任何来源(无论是本地还是在云中)实时注入、丰富和管理事务,同时支持结构化和非结构化数据是现今企业 ETL 解决方案的基本要求。

为什么说 ETL 很重要?

几十年来,ETL(提取、转换、加载)一直是数据集成的基石,在现代数据架构中仍然具有重要作用。ETL 具有以下几项潜在优势:

  • 数据质量: ETL 流程中的清理和转换步骤通常可提高数据质量和一致性
  • 数据治理:ETL 可确保以一致且合规的方式将数据转换并加载到目标系统中,从而有助于强制执行数据治理政策
  • 旧系统:ETL 通常用于将可能与现代数据架构不兼容的旧系统中的数据集成
  • 复杂的转换:ETL 工具通常提供各种转换功能,因此适合执行复杂的数据操作任务

基于云的 ETL 的工作原理

提取

提取是从一个或多个来源(在线、本地、旧版、SaaS 或其他)中检索数据的过程。检索或提取完成后,数据会被加载到暂存区中。

转换

转换包括获取数据、清理数据并将其转换为通用格式,以便将其存储在目标数据库、数据存储区、数据仓库或数据湖中。清理通常包括删除重复、不完整或明显有错误的记录。

正在加载

加载是将设置格式的数据插入目标数据库、数据存储区、数据仓库或数据湖的过程。

ETL 与 ELT

虽然 ETL 和 ELT 都是数据集成方法,但它们的区别在于数据转换的时间。ETL 会在将数据加载到目标系统之前对其进行转换,以便处理数据。在 ELT 中,数据以原始格式加载到目标系统中,然后进行转换。

ETL 和 ELT 之间的选择取决于多个因素,包括:

  • 数据量: ELT 通常更适合大数据量,因为它利用了云数据仓库的处理能力
  • 数据复杂性 :ETL 通常用于复杂的转换,需要专门的工具和专业知识
  • 目标系统:ELT 最适合具有处理转换能力的基于云的数据仓库和数据湖
  • 技能和资源:ETL 需要专门的技能和资源来构建和维护转换流水线。ELT 可能更容易实现,因为它利用了云数据仓库的资源

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。
与 Google Cloud 销售专员联系,详细讨论您的独特挑战。

ETL 使用场景

ETL 是将所有相关数据放在同一个地方以便分析,并使高管、经理和其他利益相关者能够根据数据做出明智的业务决策的一种重要方法。 ETL 通常用于以下几个方面:

数据仓储

数据仓库是一个合并了各种来源的数据,以便出于业务目的对数据进行统一分析的数据库。ETL 通常用于将数据移至数据仓库。

机器学习和人工智能

机器学习 (ML) 是一种无需明确编排分析模型即可了解数据的方法。系统使用人工智能技术从数据中获取信息。ETL 可用于将数据移动至单个位置以实现机器学习。

营销数据集成

营销数据集成包括将所有营销数据(例如客户、社交网络和网络分析数据)移动到一个地方,以便您对其进行分析并制定未来计划。ETL 可用于收集和准备营销数据。

物联网数据集成

IoT 是能够通过硬件中嵌入的传感器收集和传输数据的已连接设备的集合。IoT 设备包括工厂设备、网络服务器、智能手机或各种各样的其他机器,甚至包括穿戴式设备和植入式设备。ETL 有助于将数据从多个 IoT 来源移动到一个地方以便进行分析。

数据库复制

数据库复制从源数据库(例如 Oracle、Cloud SQL for MySQL、Microsoft SQL Server、Cloud SQL for PostgreSQL、MongoDB 或其他数据库)获取数据,并将其复制到云数据仓库中。当数据更新时,这可以是一次性操作,也可以持续执行,ETL 可用于复制数据。

云迁移

越来越多的公司将其数据和应用从本地迁移到云端以节省资金、提高应用的可伸缩性、保护其数据,以及利用通常使用 ETL 来运行这些迁移的 AI 创新。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。