+

CN120045619A - 一种基于数据中台的企业多源数据实时同步系统 - Google Patents

一种基于数据中台的企业多源数据实时同步系统 Download PDF

Info

Publication number
CN120045619A
CN120045619A CN202411936041.1A CN202411936041A CN120045619A CN 120045619 A CN120045619 A CN 120045619A CN 202411936041 A CN202411936041 A CN 202411936041A CN 120045619 A CN120045619 A CN 120045619A
Authority
CN
China
Prior art keywords
data
unit
module
source
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202411936041.1A
Other languages
English (en)
Inventor
王佳
高雪挺
刘景娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhixiangjia Network Information Technology Co ltd
Original Assignee
Beijing Zhixiangjia Network Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhixiangjia Network Information Technology Co ltd filed Critical Beijing Zhixiangjia Network Information Technology Co ltd
Priority to CN202411936041.1A priority Critical patent/CN120045619A/zh
Publication of CN120045619A publication Critical patent/CN120045619A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于数据中台的企业多源数据实时同步系统,该系统采用容器化部署方式及分层架构,包括接入层、处理层、分发层及控制层;接入层与数据中台通信,从数据中台获取原始数据;接入层设有数据接入适配器模块,处理层设有数据格式处理模块,分发层设有数据路由分发模块,控制层设有一致性保障模块;数据接入适配器模块用于多源异构数据的统一接入;数据格式处理模块用于对接入的多源异构数据进行数据标准化处理;数据路由分发模块用于智能数据路由和分发;一致性保障模块用于保证数据同步的一致性。本发明实现了数据同步延迟降低,系统吞吐量提高,数据一致性得到有效保证,特别适用于企业核心业务系统的数据同步和跨系统数据集成场景。

Description

一种基于数据中台的企业多源数据实时同步系统
技术领域
本发明属于数据处理和分布式系统技术领域,尤其涉及一种基于数据中台的企业多源数据实时同步系统。
背景技术
随着企业数字化转型的深入,企业内部系统数量不断增加,数据同步需求日益复杂。现有的数据同步方案主要存在以下问题:
1、数据源异构问题:
企业内部存在多种不同类型的数据源系统,数据格式和接口标准不统一,数据同步适配开发成本高,系统扩展维护困难。
2、实时性保障问题:
传统批量同步方式延迟大,实时同步机制不够完善,性能瓶颈问题突出,难以满足业务实时性要求。
3、数据一致性问题:
分布式环境下数据一致性难保证,异常情况下数据容易不一致,数据校验机制不完善,修复成本高且效率低。
4、系统协同问题:
与数据中台集成度不够,缺乏统一的管理和控制,安全机制不完善,运维成本高。
发明内容
本发明的目的是提供一种基于数据中台的企业多源数据实时同步系统,以解决企业内多源异构数据的实时同步问题。
本发明提供了一种基于数据中台的企业多源数据实时同步系统,采用容器化部署方式及分层架构,包括数据接入层、数据处理层、数据分发层及数据控制层;所述数据接入层与数据中台通信,从所述数据中台获取原始数据;
所述数据接入层设有数据接入适配器模块,所述数据处理层设有数据格式处理模块,所述数据分发层设有数据路由分发模块,所述数据控制层设有一致性保障模块;各层之间通过标准化接口进行通信,以确保系统的可扩展选性和维护性;
所述数据接入适配器模块用于多源异构数据的统一接入,包括关系型数据库适配单元、分布式数据库适配单元、数据仓库适配单元及搜索引擎适配单元,分别用于接入关系型数据库、分布式数据库、数据仓库、搜索引擎;
所述数据格式处理模块用于对接入的多源异构数据进行数据标准化处理,并将处理后的标准化数据发送至所述数据路由分发模块;
所述数据路由分发模块用于:
在数据路由过程中,实时监控各节点的负载状态,结合历史数据,利用ARIMA模型进行动态负载预测;
基于负载预测结果,采用自适应路由策略,将数据流动态分发到最优节点,并采用基于消息中间件的流量控制机制,防止系统过载,保证数据处理的稳定性;其中,所述自适应路由策略考虑节点负载、网络状况、数据亲和性因素,基于蚁群算法进行优路由选择,以确保数据分发的均衡性和效率;
所述一致性保障模块用于:
实时捕获源数据的变更信息,采用基于哈希校验的多级一致性校验方法,针对建立的数据一致性校验点,定期对源端和目标端的数据进行校验,若发现数据异常,则自动进行数据修复,以保证数据同步的一致性,并通过分布式事务协调机制,确保在分布式环境下数据操作的原子性和一致性。
进一步地,所述数据接入适配器模块,采用插件式结构,支持动态加载和管理,以及对特定数据源的个性化扩展;所述数据接入适配器模块包括适配器管理单元,用于统一管理各类适配器的生命周期,实现适配器的动态部署和升级。
进一步地,所述数据格式处理模块包括:
数据格式识别单元,用于识别数据格式类型;
数据清洗单元,用于清洗异常数据;
数据转换单元,用于数据格式转换;
数据标准化单元,用于统一数据格式;
质量控制单元,用于数据质量检查。
进一步地,所述基于蚁群算法进行优路由选择的步骤如下:
步骤1:初始化:
初始信息素浓度,设置为一个常值(τij(0)=τ0);设为初始值(τ0);初始化系统状态:采集每个节点的当前负载(Lj)和路径带宽(Bij);步骤2:计算路径权重:
综合权重公式:
其中:
(Lj):节点(j)的负载,越低越优;
(Bij):路径(Pij)的剩余带宽,越高越优;
(α,β):权重因子,控制负载和带宽对决策的影响;
步骤3:路径选择:
选择概率公式:
其中:
τij(t):路径(Pij)的信息素浓度;
(Wij):路径(Pij)的综合权重;
(η,γ):参数,分别控制信息素和路径权重的重要性;
步骤4:信息素更新:
更新公式:
τij(t+1)=(1-ρ)τij(t)+Δτij
其中:
(1-ρ):信息素挥发因子,防止信息素无限增长;
(Δτij):新增的信息素,表示路径质量。
进一步地,所述基于哈希校验的多级一致性校验方法如下:
1)针对传输数据生成哈希值;
2)在目标端接收数据后再次计算哈希值;
3)对比源端与目标端的哈希值;
4)若数据不一致则触发修复流程,通过回溯历史变更记录,精确定位并修复异常数据。
进一步地,该同步系统还包括性能优化模块,所述性能优化模块包括:
增量识别单元,用于识别数据增量变化;
并行处理单元,用于基于分布式计算框架的并行处理机制,将数据处理任务分散到多个节点并行执行;
数据压缩单元,用于数据传输压缩优化;
资源调度单元,基于容器技术实现资源调度;
性能监控单元,用于系统性能监控。
进一步地,所述增量识别单元具体用于:
通过布隆过滤器记录同步过的数据,仅识别新增或变更的数据,以减少数据传输量,具体流程如下:
1)初始化布隆过滤器并加载源数据哈希;
2)对新数据计算哈希值,检查布隆过滤器是否已存在;
3)将新增数据加入同步任务。
进一步地,所述数据压缩单元具体用于:
基于LZ4的高效压缩算法,实现智能的数据压缩策略,具体流程如下:
1)对输入数据流分块处理,提取重复模式;
2)通过滑动窗口匹配数据块,替换为指针或符号;
3)传输压缩后的数据,目标端解压。
进一步地,所述资源调度单元具体用于:
基于容器化的资源调度机制,供同步系统根据负载情况动态调整计算资源的分配,以确保处理性能的最优化。
进一步地,该同步系统还包括安全控制模块,所述安全控制模块包括:
身份认证单元,用于统一身份认证;
访问控制单元,用于实现基于角色的访问控制;
数据加密单元,用于实现传输层安全加密;
数据脱敏单元,用于处理敏感数据;
审计日志单元,用于记录数据访问日志。
借由上述方案,通过基于数据中台的企业多源数据实时同步系统,实现了数据同步延迟降低,系统吞吐量提高,数据一致性得到有效保证,特别适用于企业核心业务系统的数据同步和跨系统数据集成场景,具体技术效果如下:
1、系统采用容器化部署方式,支持弹性伸缩,通过统一的服务治理框架实现系统的可靠运行。各层次之间通过标准化的接口进行通信,确保系统的可扩展性和维护性。采用分层设计架构,在接入层,通过企业级数据接入适配器实现多源异构数据的统一接入,在处理层,通过数据格式标准化处理模块实现数据的统一处理;在分发层,采用基于流处理框架的智能路由机制实现数据的高效分发;在控制层,通过分布式一致性保障机制确保数据实时同步的可靠性。
2、系统采用数据接入适配机制实现了统一的数据接入适配框架,支持多种异构数据源的接入。系统提供标准化的适配器接口规范,支持关系型数据库(如MySQL)、分布式数据库(如HBase)、数据仓库(如Hive)、搜索引擎(如Elasticsearch)等多种类型数据源的接入。适配器采用插件式设计,支持动态加载和管理。每个适配器都实现了数据读取、格式转换、状态维护等标准功能,并支持针对特定数据源的个性化扩展。系统通过适配器管理单元统一管理各类适配器的生命周期,实现适配器的动态部署和升级。
3、系统基于流处理框架的智能数据路由机制,实现动态负载预测和自适应路由策略。在数据路由过程中,了解各节点的实时负载有助于更高效地分发任务,从而避免过载。系统通过实时监控各节点的负载状态,结合历史数据分析,基于ARIMA模型实现动态负载预测。基于预测结果,系统采用自适应路由策略,将数据流动态分发到最优节点。路由策略考虑了节点负载、网络状况、数据亲和性等多个因素,确保数据分发的均衡性和效率。系统采用基于蚁群算法的最优路由选择,解决了数据路由中因节点负载、网络带宽等问题导致的效率下降问题,提高了系统整体性能。系统采用基于消息中间件的流量控制机制,防止系统过载,保证数据处理的稳定性。
4、系统建立了完整的分布式一致性保障机制,采用基于数据库变更捕获(CDC)技术进行多级数据校验,实时捕获源数据的变更信息。系统采用基于哈希校验的多级一致性校验,快速发现数据异常,当发现数据不一致时,系统自动触发数据修复流程。同时,系统采用分布式事务协调机制,确保在分布式环境下数据操作的原子性和一致性。
5、系统实现了高性能数据处理机制,保证系统的实时性能。在数据采集层面,系统实现了基于布隆过滤器的增量数据识别,只同步发生变更的数据,大幅减少数据传输量,解决了全量数据同步代价高的问题,显著减少了计算和传输成本。在数据处理层面,系统采用基于分布式计算框架的并行处理机制,将数据处理任务分散到多个节点并行执行,提供高性能数据处理能力。系统基于LZ4的高效压缩算法,实现了智能的数据压缩策略,在保证性能的同时降低了网络带宽占用。系统通过容器化的资源调度机制,可以根据负载情况动态调整计算资源的分配,确保处理性能的最优化。
6、系统建立了完善的安全控制机制,实现数据传输和访问的安全保护。系统通过统一身份认证(SSO)和基于角色的访问控制(RBAC),实现了用户权限的精细化管理。在数据传输层面,采用传输层安全协议(TLS)进行加密,确保了数据传输的安全性。系统支持灵活的数据脱敏策略,可以针对不同的数据字段配置不同的脱敏规则,保护敏感数据的安全。同时,系统实现了完整的审计日志机制,记录所有的数据访问和操作行为,支持后续的安全审计和追溯。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明企业多源数据实时同步系统的整体架构图;
图2为本发明数据接入适配器模块的结构及功能示意图;
图3为本发明数据路由分发模块的工作流程图;
图4为本发明一致性保障模块的结构及功能示意图;
图5为本发明性能优化模块的结构及功能示意图;
图6为本发明安全控制模块的结构及功能示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例提供了一种基于数据中台的企业多源数据实时同步系统,采用容器化部署方式及分层架构,包括数据接入层、数据处理层、数据分发层及数据控制层;所述数据接入层与数据中台通信,从所述数据中台获取原始数据;所述数据接入层设有数据接入适配器模块,所述数据处理层设有数据格式处理模块,所述数据分发层设有数据路由分发模块,所述数据控制层设有一致性保障模块;各层之间通过标准化接口进行通信,以确保系统的可扩展选性和维护性。
所述数据接入适配器模块用于多源异构数据的统一接入,包括关系型数据库适配单元、分布式数据库适配单元、数据仓库适配单元及搜索引擎适配单元,分别用于接入关系型数据库、分布式数据库、数据仓库、搜索引擎。所述数据接入适配器模块,采用插件式结构,支持动态加载和管理,以及对特定数据源的个性化扩展;所述数据接入适配器模块包括适配器管理单元,用于统一管理各类适配器的生命周期,实现适配器的动态部署和升级。
所述数据格式处理模块用于对接入的多源异构数据进行数据标准化处理,并将处理后的标准化数据发送至所述数据路由分发模块。具体地,所述数据格式处理模块包括:
数据格式识别单元,用于识别数据格式类型;
数据清洗单元,用于清洗异常数据;
数据转换单元,用于数据格式转换;
数据标准化单元,用于统一数据格式;
质量控制单元,用于数据质量检查。
所述数据路由分发模块用于:
在数据路由过程中,实时监控各节点的负载状态,结合历史数据,利用ARIMA模型进行动态负载预测。ARIMA模型全称是差分自回归积分滑动平均模型(Auto-RegressiveIntegrated Moving Average)。ARIMA模型包含3个部分,即自回归(AR)、差分(I)和移动平均(MA)。通常,ARIMA模型主要用于对时间序列数据进行预测,适合具有以下特征的数据:
1.数据具有一定的趋势性或周期性。
2.数据之间存在时间依赖性。
3.数据经过差分处理后可以变得平稳。
它被广泛应用于负载预测、经济指标分析等领域。它的参数能够反映历史数据、CPU使用率、内存利用率等相关数据。预测模型如下:
yt=c+φ1yt-12yt-2+…+φpyt-p+∈t
式中,yt为当前时间t的预测值;c为常数项,表示预测数据的长期均值趋势;φ1,,φ2,…,φp:为自回归系数,用于衡量过去p个时间点的值对当前值的影响;∈t为随机扰动项,或误差。在本实施例中包括几种可能的场景:系统运行中的突发性事件(比如,用户同时提交大量查询而造成的高并发请求),外部环境(如网络、硬件)引起的随机干扰;p为自回归阶数,表示当前值yt与其前p个时间点的数据值yt-1,yt-2,…,yt-p之间的关系。
在负载预测中,CPU使用率、内存利用率等指标可以作为时间序列的输入数据(即yt的时间序列)。通过ARIMA模型建模,这些指标的数据趋势、波动规律、周期性可以被捕捉,从而实现未来时间点负载的预测。其中:
历史数据(yt-1,yt-2,…):包括过去的CPU使用率、内存利用率数据,用于构建时间序列模型。
自回归系数(φ1,φ2,…):反映了每个指标的短期趋势。例如,CPU使用率的当前值可能受过去某些时刻值的强烈影响。
随机误差(∈t):表示负载预测过程中无法用历史数据解释的部分,比如瞬时的非规律性突发负载。
基于负载预测结果,采用自适应路由策略,将数据流动态分发到最优节点,并采用基于消息中间件的流量控制机制,防止系统过载,保证数据处理的稳定性;其中,所述自适应路由策略考虑节点负载、网络状况、数据亲和性因素,基于蚁群算法进行优路由选择,以确保数据分发的均衡性和效率。
蚁群算法通过模拟蚂蚁觅食行为,利用信息素浓度引导路径选择,具体步骤如下:
步骤1:初始化:
初始信息素浓度,设置为一个常值(τij(0)=τ0)。设为初始值(τ0)。
初始化系统状态:采集每个节点的当前负载(Lj)和路径带宽(Bij)。
步骤2:计算路径权重:
综合权重公式:
其中:
(Lj):节点(j)的负载(越低越优)。
(Bij):路径(Pij)的剩余带宽(越高越优)。
(α,β):权重因子,控制负载和带宽对决策的影响。
步骤3:路径选择:
选择概率公式:
其中:
τij(t):路径(Pij)的信息素浓度。
(Wij):路径(Pij)的综合权重。
(η,γ):参数,分别控制信息素和路径权重的重要性。
步骤4:信息素更新:
更新公式:
τij(t+1)=(1-ρ)τij(t)+Δτij
其中:
(1-ρ):信息素挥发因子,防止信息素无限增长。
(Δτij):新增的信息素,表示路径质量。
在一具体示例中,所述数据路由分发模块包括:
负载预测单元,用于基于流处理框架实现动态负载预测;
路由策略单元,用于实现自适应路由策略;
流量控制单元,用于基于消息中间件实现流量控制;
任务调度单元,用于同步任务调度;
资源管理单元,用于系统资源管理。
所述一致性保障模块用于:
实时捕获源数据的变更信息,采用基于哈希校验的多级一致性校验方法,针对建立的数据一致性校验点,定期对源端和目标端的数据进行校验,包括数据完整性校验、格式一致性校验和业务规则校验等多个维度,若发现数据异常,则自动进行数据修复,以保证数据同步的一致性,并通过分布式事务协调机制,确保在分布式环境下数据操作的原子性和一致性。
分布式环境下,数据的一致性是核心问题。系统采用基于哈希校验的多级一致性校验,快速发现数据异常。使用哈希函数对数据进行唯一性编码。在不同校验点(字段级、表级、全局级)分别计算哈希值并比对。步骤如下:
1)针对传输数据生成哈希值;
2)在目标端接收数据后再次计算哈希值;
3)对比源端与目标端的哈希值;
4)若数据不一致则触发修复流程,通过回溯历史变更记录,精确定位并修复异常数据。
在一具体示例中,上述各步骤具体流程如下:
步骤1:传输数据生成哈希值
(1.1)生成数据块:
将需要传输的数据分为多个部分(如字段级、表级、全局级),每个部分分别生成哈希值。
设数据块为(Di),其中(i=1,2,...,n)。
(1.2)计算源端哈希值:
对数据块(Di)使用哈希函数(H)生成对应的哈希值(hi):
hi=H(Di);
生成全局级别的综合哈希值(Hglobal),通过所有数据块的哈希值组合:
Hglobal=H(h1||h2||...||hn);
其中,(||)表示字符串拼接操作。
(1.3)附加哈希值:
将计算出的哈希值(hi)和(Hglobal)附加到数据包中,随数据一起传输到目标端。
步骤2:目标端接收数据并重新计算哈希值
(2.1)提取数据块:在目标端接收数据后,提取传输数据(Di′)以及附加的哈希值(hi)和(Hglobal)。
(2.2)计算目标端哈希值:
对接收的数据块(Di′)使用相同的哈希函数(H)重新计算哈希值(h′i):
h′i=H(D′i);
计算目标端的全局哈希值(Hglobal′):
Hglobal′=H(h′1||h′2||…||h′n)。
步骤3:对比源端与目标端的哈希值
(3.1)逐级对比:
字段级校验:
If hi≠h′i,trigger field-level repair
表级校验:
If Htable≠Htable′,trigger table-level repair.
全局级校验:
If Hglobal≠Hglobal′,trigger global-level repair.
(3.2)校验逻辑:
从字段级别到全局级别逐层对比,发现最小粒度的差异后停止进一步对比。
步骤4:触发修复流程
(4.1)回溯历史变更记录:使用变更记录系统,查找源端与目标端在传输过程中发生的变更:
查找(Di)在传输路径中的修改日志。
确定数据传输时的差异位置。
(4.2)精准定位异常:
根据变更记录,确定受影响的数据块(Di)及其位置。
(4.3)修复数据:
将源端的正确数据重新发送至目标端,覆盖异常数据块。对修复后的数据重新计算哈希值,并再次进行校验,确保数据一致。
相关公式:
字段级别校验:
hfield,i=H(Dfield,i);
表级别校验:
htable=H(hfield,1||hfield,2||...||hfield,n);
全局校验:
hglobal=H(htable,1||htable,2||...||htable,m);
参数解释:
在一具体示例中,所述一致性保障模块包括:
变更捕获单元,用于基于CDC技术捕获数据变更;
数据校验单元,用于实现多级数据校验;
异常检测单元,用于检测数据异常;
数据修复单元,用于自动修复异常数据;
事务协调单元,用于分布式事务协调。
所述企业多源数据实时同步系统还包括性能优化模块,所述性能优化模块用于系统性能管理和优化,具体包括:
增量识别单元,用于识别数据增量变化;
并行处理单元,用于基于分布式计算框架的并行处理机制,将数据处理任务分散到多个节点并行执行;
数据压缩单元,用于数据传输压缩优化;
资源调度单元,基于容器技术实现资源调度;
性能监控单元,用于系统性能监控。
在本实施例中,所述增量识别单元
通过布隆过滤器记录同步过的数据,仅识别新增或变更的数据,以减少数据传输量。布隆过滤器是一种高效的概率数据结构,用于检测元素是否存在于集合中。步骤如下:
1)初始化布隆过滤器并加载源数据哈希;
2)对新数据计算哈希值,检查布隆过滤器是否已存在;
3)将新增数据加入同步任务。
在一具体示例中,上述各步骤的具体流程如下:
步骤1:初始化布隆过滤器并加载源数据哈希
(1.1)布隆过滤器初始化:
布隆过滤器是一个长度为(m)的位数组,初始时所有位都设为0。
定义(k)个独立的哈希函数集合(H=H1,H2,...,Hk),每个函数将输入映射到布隆过滤器的一个位置。
(1.2)加载源数据:
对于源数据集合中的每个元素(x),计算其(k)个哈希值:
Hi(x)(1≤i≤k),i为当前使用的哈希函数编号,取值范围为1,2,…k;根据哈希值,将对应位置的位设置为1:
B[Hi(x)]=1 for all i
结果:源数据中所有元素的哈希值在布隆过滤器中标记为1。
步骤2:对新数据计算哈希值并检查布隆过滤器
(2.1)新数据检测:
对于每个新数据元素(y),使用同样的(k)个哈希函数计算哈希值:
Hi(y)(1≤i≤k)(2.2)布隆过滤器检查:
检查布隆过滤器中的对应位是否全为1:
其中:
(F(y)):表示(y)是否已存在于布隆过滤器中。
若(F(y)=True),则认为(y)已存在。
若(F(y)=False),则认为(y)是新增或变更数据。
步骤3:将新增数据加入同步任务
(3.1)数据分类:
若(F(y)=True),将(y)标记为新增数据,并加入同步任务队列。
若(F(y)=False),跳过该数据,避免重复同步。
(3.2)布隆过滤器更新:
对于新增数据(y),将其哈希值对应的布隆过滤器位设置为1:
[B[Hi(y)]=1 for all i。
在本实施例中,所述数据压缩单元
基于LZ4的高效压缩算法,实现智能的数据压缩策略。在分布式环境中,传输大量数据会增加带宽占用,通过压缩算法降低传输开销。LZ4算法是一种快速压缩算法,通过滑动窗口机制匹配重复数据,减少存储需求。步骤如下:
1)对输入数据流分块处理,提取重复模式;
2)通过滑动窗口匹配数据块,替换为指针或符号;
3)传输压缩后的数据,目标端解压。
在一具体示例中,上述各步骤的具体流程如下:
步骤1:对输入数据流分块处理,提取重复模式;
(1.1)将输入数据流S分为多个数据块Bi,每个数据块大小为L(Bi)。
(1.2)原始数据总量:
(1.3)在每个数据块中,通过滑动窗口机制提取重复模式,并标记重复段的起始位置和长度。
步骤2:通过滑动窗口匹配数据块,替换为指针或符号;
(2.1)使用滑动窗口匹配数据块中的重复段,将匹配段替换为指针(p,l),未匹配的数据作为字面量保留。
(2.2)对每个数据块的压缩后大小计算:
C(Bi)=L(Bi)-R(Bi);
其中:
R(Bi):匹配数据段替换为指针后减少的字节数。
步骤3:传输压缩后的数据,目标端解压
(3.1)传输压缩后的所有数据块,压缩后的总数据量:
(3.2)目标端接收到压缩数据后,根据指针(p,l))和字面量重建原始数据,验证:
L(S)=C(S)+R(S):
式中,L(S)表示原始数据量,C(S)表示压缩后数据量,R(S)为压缩率。
在本实施例中,所述资源调度单元基于容器化的资源调度机制,供同步系统根据负载情况动态调整计算资源的分配,以确保处理性能的最优化。
所述企业多源数据实时同步系统还包括安全控制模块,所述安全控制模块用于数据访问控制和安全保护,包括:
身份认证单元,用于统一身份认证;
访问控制单元,用于实现基于角色的访问控制;
数据加密单元,用于实现传输层安全加密;
数据脱敏单元,用于处理敏感数据;
审计日志单元,用于记录数据访问日志。
相比于现有技术,本发明具有如下优势:
1、接入能力优势:支持多种异构数据源的统一接入;标准化的适配器框架降低开发成本;插件式设计提高系统扩展性;统一管理提升运维效率;动态加载机制增强系统灵活性。
2、性能优势:数据同步延迟降低;系统吞吐量提高;系统可用性提高;数据一致性得到有效保证;支持大规模并发同步任务。
3、可靠性保障优势:多级数据校验确保数据准确性;自动化修复提高系统可靠性;分布式事务保障数据一致性;完善的异常处理机制;数据操作可追溯。
下面对本发明的整体架构及各模块的结构功能作进一步详细说明。
一、系统整体架构的具体实现
如图1所示,本发明的企业多源数据实时同步系统采用分层架构设计,具体包括以下部分:
1、硬件环境配置:
服务器配置:
CPU:Intel Xeon E5-2680 v4及以上
内存:256GB DDR4
存储:NVMe SSD 2TB
网卡:万兆网卡(10GbE)。
2、集群规模:
管理节点:3节点
计算节点:10-100节点
存储节点:根据数据量弹性配置。
3、基础设施层:
容器编排平台:Kubernetes集群
分布式文件系统:HDFS集群
分布式缓存:Redis集群
消息中间件:Kafka集群
负载均衡:基于HAProxy的高可用方案
4、服务组件部署:
服务注册中心:统一服务注册和发现
配置中心:统一配置管理
监控中心:系统运行状态监控
日志中心:集中式日志管理
告警中心:异常情况实时告警。
二、数据接入适配模块的具体实现
如图2所示,数据接入适配器模块实现了多源异构数据的统一接入,包括适配器框架201、数据源连接池202、数据读取引擎203、第一状态管理器204、配置管理器205;其中,适配器框架201包括标准接口及插件管理模块;数据源连接池202用于连接管理及资源复用;数据读取引擎203用于数据抽取及数据读取;第一状态管理器204用于展示同步状态及监控记录;配置管理器205用于配置信息管理及参数管理。配置管理器205对适配器框架201、数据源连接池202、数据读取引擎203进行配置管理;第一状态管理器204对数据源连接池202、数据读取引擎203进行状态监控。具体包括:
1、适配器框架实现:
标准接口定义:
数据读取接口
状态管理接口
配置管理接口
生命周期管理接口。
插件化实现:
动态类加载机制
插件注册机制
版本管理机制热加载支持。
2、数据源接入实现:
关系型数据库接入:
基于JDBC的通用适配基于日志解析的增量采集
连接池优化
并发控制。
分布式数据库接入:
专用API对接
分片数据处理
状态同步机制
异常恢复。
3、适配器管理实现:
适配器生命周期:
注册、初始化
启动、运行
停止、卸载。
状态监控:
运行状态检测
性能指标采集
异常情况告警自动故障转移。
三、数据路由分发模块的具体实现
如图3所示,数据路由分发模块实现了智能的数据分发机制,经过负载监控301、策略计算302、数据分发303、流量控制304、状态反馈305实现数据分发。分发过程中,通过状态反馈305对负载监控301进行状态更新,对策略计算302进行优化反馈;通过流量控制304对负载监控301进行流量监控。具体地,负载监控301包括系统负载及资源使用监控;策略计算302包括路由计算机优化选择;数据分发303包括数据路由及数据转发;流量控制304包括速率限制及流量均衡;状态反馈305包括结果收集及状态更新。具体包括:
1、负载预测实现:
指标采集:
CPU使用率
内存使用情况
网络带宽利用率
磁盘I/O状况
预测算法:
滑动窗口分析
趋势预测
阈值动态调整
预警机制
2、路由策略实现:
策略计算:
节点负载权重
网络延迟因素
数据亲和性
资源利用率。
动态调整:
实时负载均衡
自动故障转移
性能优化调整
配置动态更新。
四、一致性保障模块的具体实现
如图4所示,一致性保障模块实现了分布式环境下的数据一致性保障,包括CDC引擎401、校验器402、修复处理器403、事务协调器404、第二状态管理器405。其中,CDC引擎401用于变更捕获、数据解析;校验器402用于数据校验、一致性检查;修复处理器403用于差异分析、数据修复;事务协调器404用于事务管理、提交控制;第二状态管理器405用于状态跟踪、状态维护;第二状态管理器405对CDC引擎401、校验器402、修复处理器403、事务协调器404进行状态监控;事务协调器404对校验器402、修复处理器403进行事务控制。具体包括:
1、变更捕获实现:
CDC引擎配置:
数据源连接配置
表级过滤规则
字段级过滤规则
变更事件定义。
数据采集处理:
日志解析处理
事务完整性保证
断点续传机制
并发控制管理。
2、数据校验实现:
校验点设置:
时间点校验
事务点校验
数据量校验
业务规则校验。
校验流程:
全量数据校验
增量数据校验
实时一致性校验
定期一致性校验。
3、数据修复实现:
修复策略:
自动修复规则
人工干预机制
优先级管理
影响面分析。
修复流程:
异常检测
差异对比
数据回填
结果验证。
五、性能优化模块的具体实现
如图5所示,性能优化模块实现了系统性能的全面优化,包括增量处理器501、并行调度器502、资源管理器503、性能监控器504、优化决策器505。其中,增量处理器501用于增量识别、增量同步;并行调度器502用于任务分配、并发控制;资源管理器503用于资源分配、负载均衡;性能监控器504用于性能采集、指标分析;优化决策器505用于策略生成、优化执行。优化决策器505分别向增量处理器501、并行调度器502、资源管理器503提供处理策略、调度策略及优化策略;增量处理器501、并行调度器502向性能监控器504提供性能数据;资源管理器503向性能监控器504提供资源状态信息。具体包括:
1、增量处理实现:
增量识别:
时间戳标记
版本号标记
变更标志位增量日志解析。数据处理:
增量数据提取
数据合并处理
冲突解决状态维护。
2、并行处理实现:任务分解:
数据分片策略
任务优先级划分依赖关系分析资源评估。
并行调度:
工作线程池管理任务动态分配进度监控异常处理。
3、资源调度实现:容器管理:
容器资源配置
弹性伸缩策略
资源限制策略
调度优化。
性能监控:
实时性能数据采集性能瓶颈分析
趋势预测
告警触发。
六、安全控制模块的具体实现
如图6所示,安全控制模块实现了全方位的安全防护,包括认证中心601、权限管理器602、加密处理器603、脱敏处理器604、审计日志管理器605。其中,认证中心601用于身份验证、凭证管理;权限管理器602用于访问控制、策略执行;加密处理器603用于加密操作、秘钥管理;脱敏处理器604用于数据脱敏、规则应用;审计日志管理器605用于日志记录、日志分析。审计日志管理器605对认证中心601、权限管理器602、加密处理器603、脱敏处理器604进行审计;权限管理器602对加密处理器603、脱敏处理器604进行控制。具体包括:
1、身份认证实现:
认证机制:
SSO集成配置
多因素认证
令牌管理
会话控制。
权限管理:
角色定义
权限分配
权限继承
动态授权。
2、数据安全实现:
传输加密:
TLS配置管理
证书管理
密钥更新
加密策略。
数据脱敏:
脱敏规则配置
字段级别脱敏
动态脱敏处理
脱敏效果验证。
3、审计日志实现:
日志记录:
操作日志采集
访问日志记录
系统日志管理
审计日志存储。
日志分析:
实时日志分析
异常行为检测
审计报告生成
合规性检查。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (10)

1.一种基于数据中台的企业多源数据实时同步系统,其特征在于,采用容器化部署方式及分层架构,包括数据接入层、数据处理层、数据分发层及数据控制层;所述数据接入层与数据中台通信,从所述数据中台获取原始数据;
所述数据接入层设有数据接入适配器模块,所述数据处理层设有数据格式处理模块,所述数据分发层设有数据路由分发模块,所述数据控制层设有一致性保障模块;各层之间通过标准化接口进行通信,以确保系统的可扩展选性和维护性;
所述数据接入适配器模块用于多源异构数据的统一接入,包括关系型数据库适配单元、分布式数据库适配单元、数据仓库适配单元及搜索引擎适配单元,分别用于接入关系型数据库、分布式数据库、数据仓库、搜索引擎;
所述数据格式处理模块用于对接入的多源异构数据进行数据标准化处理,并将处理后的标准化数据发送至所述数据路由分发模块;
所述数据路由分发模块用于:
在数据路由过程中,实时监控各节点的负载状态,结合历史数据,利用ARIMA模型进行动态负载预测;
基于负载预测结果,采用自适应路由策略,将数据流动态分发到最优节点,并采用基于消息中间件的流量控制机制,防止系统过载,保证数据处理的稳定性;其中,所述自适应路由策略考虑节点负载、网络状况、数据亲和性因素,基于蚁群算法进行优路由选择,以确保数据分发的均衡性和效率;
所述一致性保障模块用于:
实时捕获源数据的变更信息,采用基于哈希校验的多级一致性校验方法,针对建立的数据一致性校验点,定期对源端和目标端的数据进行校验,若发现数据异常,则自动进行数据修复,以保证数据同步的一致性,并通过分布式事务协调机制,确保在分布式环境下数据操作的原子性和一致性。
2.根据权利要求1所述的基于数据中台的企业多源数据实时同步系统,其特征在于,所述数据接入适配器模块,采用插件式结构,支持动态加载和管理,以及对数据源的个性化扩展;所述数据接入适配器模块包括适配器管理单元,用于统一管理各类适配器的生命周期,实现适配器的动态部署和升级。
3.根据权利要求1所述的基于数据中台的企业多源数据实时同步系统,其特征在于,所述数据格式处理模块包括:
数据格式识别单元,用于识别数据格式类型;
数据清洗单元,用于清洗异常数据;
数据转换单元,用于数据格式转换;
数据标准化单元,用于统一数据格式;
质量控制单元,用于数据质量检查。
4.根据权利要求1所述的基于数据中台的企业多源数据实时同步系统,其特征在于,所述基于蚁群算法进行优路由选择的步骤如下:
步骤1:初始化:
初始信息素浓度,设置为一个常值(τij(0)=τ0);设为初始值(τ0);
初始化系统状态:采集每个节点的当前负载(Lj)和路径带宽(Bij);
步骤2:计算路径权重:
综合权重公式:
其中:
(Lj):节点(j)的负载,越低越优;
(Bij):路径(Pij)的剩余带宽,越高越优;
(α,β):权重因子,控制负载和带宽对决策的影响;
步骤3:路径选择:
选择概率公式:
其中:
τij(t):路径(Pij)的信息素浓度;
(Wij):路径(Pij)的综合权重;
(η,γ):参数,分别控制信息素和路径权重的重要性;
步骤4:信息素更新:
更新公式:
τij(t+1)=(1-ρ)τij(t)+Δτij;
其中:
(1-ρ):信息素挥发因子,防止信息素无限增长;
(Δτij):新增的信息素,表示路径质量。
5.根据权利要求1所述的基于数据中台的企业多源数据实时同步系统,其特征在于,所述基于哈希校验的多级一致性校验方法如下:
1)针对传输数据生成哈希值;
2)在目标端接收数据后再次计算哈希值;
3)对比源端与目标端的哈希值;
4)若数据不一致则触发修复流程,通过回溯历史变更记录,精确定位并修复异常数据。
6.根据权利要求1所述的基于数据中台的企业多源数据实时同步系统,其特征在于,还包括性能优化模块,所述性能优化模块包括:
增量识别单元,用于识别数据增量变化;
并行处理单元,用于基于分布式计算框架的并行处理机制,将数据处理任务分散到多个节点并行执行;
数据压缩单元,用于数据传输压缩优化;
资源调度单元,基于容器技术实现资源调度;
性能监控单元,用于系统性能监控。
7.根据权利要求6所述的基于数据中台的企业多源数据实时同步系统,其特征在于,所述增量识别单元具体用于:
通过布隆过滤器记录同步过的数据,仅识别新增或变更的数据,以减少数据传输量,具体流程如下:
1)初始化布隆过滤器并加载源数据哈希;
2)对新数据计算哈希值,检查布隆过滤器是否已存在;
3)将新增数据加入同步任务。
8.根据权利要求7所述的基于数据中台的企业多源数据实时同步系统,其特征在于,所述数据压缩单元具体用于:
基于LZ4的高效压缩算法,实现智能的数据压缩策略,具体流程如下:
1)对输入数据流分块处理,提取重复模式;
2)通过滑动窗口匹配数据块,替换为指针或符号;
3)传输压缩后的数据,目标端解压。
9.根据权利要求8所述的基于数据中台的企业多源数据实时同步系统,其特征在于,所述资源调度单元具体用于:
基于容器化的资源调度机制,供同步系统根据负载情况动态调整计算资源的分配,以确保处理性能的最优化。
10.根据权利要求1所述的基于数据中台的企业多源数据实时同步系统,其特征在于,还包括安全控制模块,所述安全控制模块包括:
身份认证单元,用于统一身份认证;
访问控制单元,用于实现基于角色的访问控制;
数据加密单元,用于实现传输层安全加密;
数据脱敏单元,用于处理敏感数据;
审计日志单元,用于记录数据访问日志。
CN202411936041.1A 2024-12-26 2024-12-26 一种基于数据中台的企业多源数据实时同步系统 Pending CN120045619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411936041.1A CN120045619A (zh) 2024-12-26 2024-12-26 一种基于数据中台的企业多源数据实时同步系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411936041.1A CN120045619A (zh) 2024-12-26 2024-12-26 一种基于数据中台的企业多源数据实时同步系统

Publications (1)

Publication Number Publication Date
CN120045619A true CN120045619A (zh) 2025-05-27

Family

ID=95752430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411936041.1A Pending CN120045619A (zh) 2024-12-26 2024-12-26 一种基于数据中台的企业多源数据实时同步系统

Country Status (1)

Country Link
CN (1) CN120045619A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060101081A1 (en) * 2004-11-01 2006-05-11 Sybase, Inc. Distributed Database System Providing Data and Space Management Methodology
US20190347590A1 (en) * 2014-03-12 2019-11-14 Bahwan CyberTek Private Limited Intelligent Decision Synchronization in Real Time for both Discrete and Continuous Process Industries
CN117640748A (zh) * 2024-01-24 2024-03-01 金数信息科技(苏州)有限公司 跨平台设备信息采集系统
CN117725122A (zh) * 2023-12-25 2024-03-19 北京全网数商科技股份有限公司 一种业务管理平台的订单同步方法
CN117827743A (zh) * 2023-12-28 2024-04-05 山东省海洋科学研究院(青岛国家海洋科学研究中心) 档案管理用数据交互系统
CN118916147A (zh) * 2024-08-29 2024-11-08 深圳华易数字能源有限公司 一种多源算力数据整合与智能调度系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060101081A1 (en) * 2004-11-01 2006-05-11 Sybase, Inc. Distributed Database System Providing Data and Space Management Methodology
US20190347590A1 (en) * 2014-03-12 2019-11-14 Bahwan CyberTek Private Limited Intelligent Decision Synchronization in Real Time for both Discrete and Continuous Process Industries
CN117725122A (zh) * 2023-12-25 2024-03-19 北京全网数商科技股份有限公司 一种业务管理平台的订单同步方法
CN117827743A (zh) * 2023-12-28 2024-04-05 山东省海洋科学研究院(青岛国家海洋科学研究中心) 档案管理用数据交互系统
CN117640748A (zh) * 2024-01-24 2024-03-01 金数信息科技(苏州)有限公司 跨平台设备信息采集系统
CN118916147A (zh) * 2024-08-29 2024-11-08 深圳华易数字能源有限公司 一种多源算力数据整合与智能调度系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张渊源等: "JTangSync分布式异构数据同步系统的设计与实现", 计算机技术与发展, vol. 26, no. 12, 31 December 2016 (2016-12-31), pages 169 - 175 *

Similar Documents

Publication Publication Date Title
CN112102111B (zh) 一种发电厂数据智能处理系统
US10824525B2 (en) Distributed data monitoring device
US10048996B1 (en) Predicting infrastructure failures in a data center for hosted service mitigation actions
Joshi et al. On the delay-storage trade-off in content download from coded distributed storage systems
EP3002924B1 (en) Stream-based object storage solution for real-time applications
CN119357271B (zh) 基于数据转换技术的铁路办公系统异构数据库集成方法
CN117743466A (zh) 一种跨平台数据库同步方法
US10248508B1 (en) Distributed data validation service
CN119201620B (zh) SaaS系统的云计算分析方法、装置、设备及存储介质
CN109308290B (zh) 一种基于cim的高效数据清洗转换方法
KR102734574B1 (ko) 룰셋 기반의 대용량 로그 데이터 분석 장치, 이의 제어 방법 및 프로그램
CN119311754A (zh) 一种基于动态扩展架构的智能化数据接入与集成系统
CN119583657A (zh) 网络服务方法、装置及介质
CN120045619A (zh) 一种基于数据中台的企业多源数据实时同步系统
CN120181915B (zh) 一种工会福利平台在高并发场景下的缓存管理方法及系统
CN119944979B (zh) 一种自主可控变电站多模态感知运维系统与方法
CN120046173B (zh) 一种基于可信数据的信创系统数据迁移方法及系统
CN120561343B (zh) 超融合服务器多资源整合系统及调度方法
CN118394772B (zh) 一种数据库表变动下的数据资产实时更新方法
CN119441563B (zh) 用于非结构化数据处理的ai智能决策方法
CN120540903A (zh) 一种电力集控中心数据校验及备份方法及装置
CN120671167A (zh) 一种基于基数树的多集群资源权限管理方法及系统
NN et al. Blockchain based Secure Log Storage
CN120729916A (zh) 一种基于多租户分级控制的电信网络统一数据采集方法
CN120561343A (zh) 超融合服务器多资源整合系统及调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载