+

CN111538720B - 电力行业基础数据清理的方法及系统 - Google Patents

电力行业基础数据清理的方法及系统 Download PDF

Info

Publication number
CN111538720B
CN111538720B CN202010171013.0A CN202010171013A CN111538720B CN 111538720 B CN111538720 B CN 111538720B CN 202010171013 A CN202010171013 A CN 202010171013A CN 111538720 B CN111538720 B CN 111538720B
Authority
CN
China
Prior art keywords
data
real
cleaning
time
time industrial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010171013.0A
Other languages
English (en)
Other versions
CN111538720A (zh
Inventor
曹海涛
刘林元
冯磊
陈武军
李宏博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jialing River Tingzikou Water Resources And Hydropower Development Co ltd
Original Assignee
Jialing River Tingzikou Water Resources And Hydropower Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jialing River Tingzikou Water Resources And Hydropower Development Co ltd filed Critical Jialing River Tingzikou Water Resources And Hydropower Development Co ltd
Priority to CN202010171013.0A priority Critical patent/CN111538720B/zh
Publication of CN111538720A publication Critical patent/CN111538720A/zh
Application granted granted Critical
Publication of CN111538720B publication Critical patent/CN111538720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种电力行业基础数据清理的方法,包括:采集电站设备的实时工业数据;对所述实时工业数据进行检查及梳理;从所述实时工业数据的生产阶段对所述实时工业数据进行清洗及管理;从所述实时工业数据的维护阶段对所述实时工业数据进行清洗及管理;从所述实时工业数据的使用阶段对所述实时工业数据进行清洗及管理。本发明还公开了一种电力行业基础数据清理系统。采用本发明,可明从数据的生产、维护和使用三个方面对数据清理方法进行研究,最终整理出可供数据分析和现有信息化系统使用的有效数据,从而为集团下属其他企业电厂数据清理提供参考和指导。

Description

电力行业基础数据清理的方法及系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种电力行业基础数据清理的方法及一种电力行业基础数据清理系统。
背景技术
随着大数据时代的来临,数据分析方法和工具不断进步,各种智能分析系统不断涌现,发电企业可以从大量数据中获取新的洞察力,并将其与已知业务的各个细节相融合,营造出全新的生产力,促进传统电站向智慧电站转型升级。为此,我们应当将数据视为发电企业的核心资产,即“数据资产”。
数据成为资产,已经是行业共识,甚至有人建议将数据计入资产负债表。但如果对比实物资产,对数据资产的管理,还处于非常原始的阶段。往往一个机构针对其数据资产类别和数量都缺乏全面了解,数据质量、数据安全、资产评估、资产交换交易等精细管理、价值挖掘和持续运营则更为薄弱。
数据资产管理是现阶段推动大数据与实体经济深度融合、新旧动能转换、经济转向高质量发展阶段的重要工作内容。数据资产管理需要充分融合业务、技术和管理,来确保数据资产保值增值。
数据资产管理在大数据应用体系中,处于承上启下的重要地位。对上支持以价值创造为导向的数据应用开发,对下依托大数据平台实现数据全生命周期的管理。
数据资产管理贯穿数据采集、应用和价值实现等整个生命周期全过程。企业管理数据资产就是通过对数据的生命周期的管理,提高数据资产质量,促进数据在“内增值,外增效”两方面的价值变现。数据先被规范性定义、创建或获得,然后存储、维护和使用,最终被销毁。数据的生命周期开始于数据获取之前,企业先期制定数据规划、定义数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能力。
目前,提升数据质量、降低成本已经成为行业企业热点关注话题。如果不能对数据进行有效梳理及精细化管理,其价值就得不到很好体现,严重影响数据价值发挥,甚至会给运营管理带来负面作用。数据资产管理的重要性,主要体现在以下几个方面:
(1)缺乏统一数据标准:数据登记盘点流程缺乏统一的数据标准,无法有效避免数据混乱冲突、一数多源、多样多类等问题。统一标准是解决数据的关联能力、保障信息交互、数据流通、系统访问功能顺畅的必要前提。
(2)数据周期规划混乱:对于部分企业来说,其内部数据的采集、传输、存储、应用、开放共享等全生命周期流程的各个环节的规划存在不合理现象。如收集数据时数据源用户处于不知情/非同意状态、违约超范围加工或未做到加工信息隔离等。
(3)难以统筹业务管理:数据的增删、修改、使用等权限管理混乱,难以建立全面、准确、完整地反映企业运营状况的单一数据视图。数据需求、数据质量、数据应用等问题的管理和解决分散在不同业务和技术部门,没有一个清晰的协调机制和统一的数据管理渠道,业务不能及时、按需获得数据支持。
(4)数据处理效率低下:数据采集、预处理等工作的周期较长,方法不够便捷,处理效率低下,无法快速挖掘整理出完善优质的数据属性供分析应用,需要提升开发及治理效率。
(5)数据质量参差不齐:数据冗余、数据缺值、数据冲突等数据质量问题不能被及时发现和有效解决。需要建立规范的数据治理流程和考核机制等途径加以完善。
(6)安全监管势在必行:缺乏有效的数据安全管理机制,对敏感信息、隐私信息、保密信息的访问缺乏有效控制使其脱敏脱密合规,甚至对企业形成潜在的声誉和法律风险等。
发明内容
本发明所要解决的技术问题在于,提供一种电力行业基础数据清理的方法及系统,可对数据进行清洗和管理,以整理出有效数据。
为了解决上述技术问题,本发明提供了一种电力行业基础数据清理的方法,包括:采集电站设备的实时工业数据;对所述实时工业数据进行检查及梳理;从所述实时工业数据的生产阶段对所述实时工业数据进行清洗及管理;从所述实时工业数据的维护阶段对所述实时工业数据进行清洗及管理;从所述实时工业数据的使用阶段对所述实时工业数据进行清洗及管理。
作为上述方案的改进,所述对实时工业数据进行检查及梳理的方法包括:针对水电站站控层和风电场控制系统发电业务数据进行检查和梳理;针对有问题的数据源,深入水电和风电机组内部,对机组业务数据和通信规约进行检查和梳理。
作为上述方案的改进,所述从实时工业数据的生产阶段对实时工业数据进行清洗及管理的方法包括:根据数据属性分别对实时工业数据进行清洗及管理,所述数据属性包括时间属性、模型属性及源系统属性;根据数据的获取通道分别对实时工业数据进行清洗及管理,所述获取通道包括数据采集通道、数据抽取通道及衍生计算通道。
作为上述方案的改进,所述从实时工业数据的维护阶段对实时工业数据进行清洗及管理的方法包括:构建数据资产清册,所述数据资产清册包括检索模式、全量数据表及主备源数据;构建存储数据库,所述存储数据库包括时序数据库、关系数据库、非结构数据库及流媒体数据库;构建安全保障,所述安全保障包括链路安全、租户安全、内容安全及防护安全;构建数据服务,所述数据服务包括调度管理、多租户管理、数据同步、隔离同步、数据检索及数据调用。
作为上述方案的改进,所述从实时工业数据的使用阶段对实时工业数据进行清洗及管理的方法包括:依据应用场景分别对实时工业数据进行清洗及管理,所述应用场景包括实时监视、关联展示、历史展示及模型展示;依据算法模型分别对实时工业数据进行清洗及管理,所述算法模型包括单一量时间模型、多个量时间模型、多个量关联模型、多个量机理模型及多个量其它模型。
作为上述方案的改进,所述采集电站设备的实时工业数据的方法包括:被动接收电站设备的实时工业数据;主动采集电站设备的实时工业数据。
相应地,本发明还提供了一种电力行业基础数据清理系统,包括:采集模块,用于采集电站设备的实时工业数据;检查及梳理模块,用于对所述实时工业数据进行检查及梳理;清洗及管理模块,用于从数据的生产阶段、维护阶段及使用阶段分别对所述实时工业数据进行清洗及管理。
作为上述方案的改进,所述清洗及管理模块包括:生产阶段清洗单元,用于根据数据属性及数据的获取通道分别对实时工业数据进行清洗及管理,其中,所述数据属性包括时间属性、模型属性及源系统属性,所述获取通道包括数据采集通道、数据抽取通道及衍生计算通道;维护阶段清洗单元,用于构建数据资产清册、存储数据库、安全保障及数据服务,其中,所述数据资产清册包括检索模式、全量数据表及主备源数据,所述存储数据库包括时序数据库、关系数据库、非结构数据库及流媒体数据库,所述安全保障包括链路安全、租户安全、内容安全及防护安全,所述数据服务包括调度管理、多租户管理、数据同步、隔离同步、数据检索及数据调用。使用阶段清洗单元,用于依据应用场景及算法模型分别对实时工业数据进行清洗及管理,其中,所述应用场景包括实时监视、关联展示、历史展示及模型展示,所述算法模型包括单一量时间模型、多个量时间模型、多个量关联模型、多个量机理模型及多个量其它模型。
作为上述方案的改进,所述电力行业基础数据清理系统还包括数据分析模块,用于按编码、中文名或模糊查询方式检索实时工业数据。
作为上述方案的改进,所述电力行业基础数据清理系统采用微服务架构,并采用Docker容器化技术进行管理。
实施本发明,具有如下有益效果:
本发明从数据的生产、维护和使用三个方面对数据清理方法进行研究,并依据研究结果提出数据资产管理的技术要求和设计方案,通过对电站设备数据进行采集,针对需要数据进行清洗和管理,最终整理出可供数据分析和现有信息化系统使用的有效数据,从而为集团下属其他企业电厂数据清理提供参考和指导。
附图说明
图1是本发明电力行业基础数据清理的方法的流程图;
图2是本发明电力行业基础数据清理系统的结构示意图;
图3是本发明电力行业基础数据清理系统中清洗及管理模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
参见图1,图1显示了本发明电力行业基础数据清理的方法的流程图,包括:
S101,采集电站设备的实时工业数据。
具体地,所述采集电站设备的实时工业数据的方法包括:被动接收电站设备的实时工业数据及主动采集电站设备的实时工业数据。
需要说明的是,实时工业数据由其他外部系统采集而来,依照相关协议的不同,本发明可以支持被动接收和主动采集两种方式,主动采集模式需要支持调度设置,以调整获取的频率,针对采集的目标不同,需要支持通用工业协议、私有协议、数据库、系统、文件等。
S102,对实时工业数据进行检查及梳理。
具体地,所述对实时工业数据进行检查及梳理的方法包括:
(1)针对水电站站控层和风电场控制系统发电业务数据进行检查和梳理;检查和梳理现有站控层系统在一定时间范围内的全部测点数据,对其中存在重复、缺失、异常、错误、不一致等问题的数据进行标记,并分析其可能产生的原因,形成数据评估报告,建立数据质量判断规则及模型。
(2)针对有问题的数据源,深入水电和风电机组内部,对机组业务数据和通信规约进行检查和梳理。对有深层次问题的数据,深入数据的源头,从机组内部通信系统的设计和通信规约进行梳理,对内部相关的测点进行梳理,通过摸排有问题的数据和数据源,进行标记,提高电厂业务数据的完整性和质量,形成数据排查报告和通信规则标准组件。
S103,从实时工业数据的生产阶段对实时工业数据进行清洗及管理。
具体地,所述从实时工业数据的生产阶段对实时工业数据进行清洗及管理的方法包括:
(1)根据数据属性分别对实时工业数据进行清洗及管理,所述数据属性包括时间属性、模型属性及源系统属性。
需要说明的是,数据属性是数据的本质信息,伴随数据产生,也是数据清理的重点部分,按三种分类进行清洗和管理。其中:
时间分类:依据时间标识、采用频率和时长、停采时间等信息分类;
模型分类:按照设备模型、通信模型和信息分类;
源系统分类:通过源系统的特点进行清洗和管理分类。
(2)根据数据的获取通道分别对实时工业数据进行清洗及管理,所述获取通道包括数据采集通道、数据抽取通道及衍生计算通道。
需要说明的是,数据的生产方式不同,导致数据的获取通道不同,依据不同通道的特点进行数据清理。其中:
数据采集:通信协议的采集、数据库的采集,API接口采集等;
数据抽取:表结构解析,检索查询;
衍生计算:数据变形、时序特征、复合计算、关联特征、语义识别、图像识别、数据转换等。
因此,数据的生产环节,基于数据属性和获取通道(即生产方式)两个维度进行清洗,保证数据从源端到使用端的整个流向过程中的质量,综合运用范围定义、线性插值,关联判断等方法。
S104,从实时工业数据的维护阶段对实时工业数据进行清洗及管理。
具体地,所述从实时工业数据的维护阶段对实时工业数据进行清洗及管理的方法包括:
(1)构建数据资产清册,所述数据资产清册包括检索模式、全量数据表及主备源数据。
检索模式:建立数据标识体系,按设备域、生产域和管理域三个角度进行定义,明确数据检索模式;
全量数据表:建立全量标准数据表,明确数据存量状态,建立数据资产表;
主备源数据:对重要数据实行主备模式,保证数据安全。
(2)构建存储数据库,所述存储数据库包括时序数据库、关系数据库、非结构数据库及流媒体数据库。
时序数据库:用于存储设备产生的实时数据;时序数据库适合存储随时间进行变化的动态数据,由于其不需要关系库中复杂的关联关系,因此检索时间窗口内的数据效率很高,同时由于数据结构简单,占用存储空间少,因此可以长期存放高密度数据,为基于数据的分析工作提供支持。对于通过仪器、系统自动采集的测量数据,通常满足以上特点,因此建议采用时序数据库进行存储。
关系数据库:用于存储ERP、设备台账等数据;关系数据库适合以定义好的结构存放具有不同属性的静态信息,且可以在不同信息之间建立关系,适合存放需要进行不同维度关联分析的数据,例如设备台账信息、设备故障信息、技术监督数据等。
非结构数据库:用于存储试验记录、两票信息等数据;对于无法定义结构的静态数据,如各类结构图、人工分析的报告、图像、音频、视频等数据,需使用非结构数据库进行存放,如对于文档类型可采用文档数据库。
流媒体数据库:用于存储安全监控,巡检视频等数据。如影音视频类可采用流媒体数据库等。
(3)构建安全保障,所述安全保障包括链路安全、租户安全、内容安全及防护安全。
链路安全:建立数据加密通道,共享访问接口权限和专网传输路径;
租户安全:建立多租户认证和权限管理,实现数据安全访问;
内容安全:完善数据存储策略,保障数据安全存储;
防护安全:加强部署环境的安全,分区分级进行管理。
(4)构建数据服务,所述数据服务包括调度管理、多租户管理、数据同步、隔离同步、数据检索及数据调用。
调度管理:实现多数据库之间的关联数据调度;
多租户管理:实现多租户的访问权限管理;
数据同步:实现数据的自定义目标同步;
隔离同步:实现数据跨隔离安全同步;
数据检索:实现数据的多模式检索服务;
数据调用:实现数据的本地和远端的双重调用机制。
因此,数据管理,从数据资产清册的梳理和建立,数据分类存储的设计、数据安全使用和数据服务等方面,对数据进行有效的管理,保证数据载体的可管理性,使用环境的可靠性。
S105,从实时工业数据的使用阶段对实时工业数据进行清洗及管理。
具体地,所述从实时工业数据的使用阶段对实时工业数据进行清洗及管理的方法包括:
(1)依据应用场景分别对实时工业数据进行清洗及管理,所述应用场景包括实时监视、关联展示、历史展示及模型展示。
实时监视:对原始数据的实时监视;
关联展示:对多个原始数据的综合关联实时展示;
历史展示:对历史数据的不同维度的展示;
模型展示:对特殊机理模型数据的展示。
(2)依据算法模型分别对实时工业数据进行清洗及管理,所述算法模型包括单一量时间模型、多个量时间模型、多个量关联模型、多个量机理模型及多个量其它模型。
单一量时间模型:单一监测量的时间模型;
多个量时间模型:多个监测量的时间模型;
多个量关联模型:多个监测量的关联模型;
多个量机理模型:行业专业机理模型,例如频谱模型,旋转模型等;
多个量其它模型:主流大数据算法类,例如神经网络,线性回归等。
由上可知,数据清理是清洗和管理方法的结合使用,贯穿数据生命周期,从数据采集、数据标准化、数据存储、数据访问使用等各环节进行不同纬度的清理方法研究,为数据质量的保障提供科学的方法。因此,本发明从数据的生产、维护和使用三个方面对数据清理方法进行研究,并依据研究结果提出数据资产管理的技术要求和设计方案,通过对电站设备数据进行采集,针对需要数据进行清洗和管理,最终整理出可供数据分析和现有信息化系统使用的有效数据,从而为集团下属其他企业电厂数据清理提供参考和指导。
参见图2,图2显示了本发明电力行业基础数据清理系统100的具体结构,其包括:
采集模块1,用于采集电站设备的实时工业数据。
检查及梳理模块2,用于对所述实时工业数据进行检查及梳理。
清洗及管理模块3,用于从数据的生产阶段、维护阶段及使用阶段分别对所述实时工业数据进行清洗及管理。
如图3所示,所述清洗及管理模块3包括:
生产阶段清洗单元31,用于根据数据属性及数据的获取通道分别对实时工业数据进行清洗及管理,其中,所述数据属性包括时间属性、模型属性及源系统属性,所述获取通道包括数据采集通道、数据抽取通道及衍生计算通道;
维护阶段清洗单元32,用于构建数据资产清册、存储数据库、安全保障及数据服务,其中,所述数据资产清册包括检索模式、全量数据表及主备源数据,所述存储数据库包括时序数据库、关系数据库、非结构数据库及流媒体数据库,所述安全保障包括链路安全、租户安全、内容安全及防护安全,所述数据服务包括调度管理、多租户管理、数据同步、隔离同步、数据检索及数据调用。
使用阶段清洗单元33,用于依据应用场景及算法模型分别对实时工业数据进行清洗及管理,其中,所述应用场景包括实时监视、关联展示、历史展示及模型展示,所述算法模型包括单一量时间模型、多个量时间模型、多个量关联模型、多个量机理模型及多个量其它模型。
因此,本发明从数据的生产、维护和使用三个方面对数据清理方法进行研究,并依据研究结果提出数据资产管理的技术要求和设计方案,通过对电站设备数据进行采集,针对需要数据进行清洗和管理,最终整理出可供数据分析和现有信息化系统使用的有效数据,从而为集团下属其他企业电厂数据清理提供参考和指导。
进一步,针对数据处理部分,应当设置专门的转换总线,对数据处理过程进行合理规划,统一流程,提炼能够复用的组件,进行流程组态化设计。相应地,所述电力行业基础数据清理系统设有采集输入模块、边缘计算模块、缓存输出模块、数据监视模块及任务调度模块。具体地:
采集输入模块:数据转换总线中的输入数据,由其他外部系统采集而来,依照相关协议的不同,可以支持被动接收和主动采集两种方式,主动采集模式需要支持调度设置,以调整获取的频率,针对采集的目标不同,需要支持通用工业协议、私有协议、数据库、系统、文件等。采集后的数据需存放在转换总线的缓存内,由后续其他服务进行处理。
边缘计算模块:数据转换总线提供边缘计算功能,可通过算法对缓存内的数据进行计算、转换。数据转换需要采用组态化设计,将计算单元封装为不同的算子,例如过滤、分解、合并、统计、换算等,多个算子可以组成不同的处理流程,处理的流程以及顺序可以灵活配置。对于经过边缘计算的数据,重新编码,放回缓存中。
缓存输出模块:对于数据转换总线中采集到的、计算后的数据,均放置在缓存中,需要将其发布输出到其他系统、服务、文件等目标中,针对不同的目标,需要以插件的形式包装其交互协议,其余部分应当采用统一的操作方式,以简化使用成本。针对不同的发布目标,可以支持通用工业协议、私有协议、数据库、系统、文件等目标的输出。
数据监视模块:对于整个处理过程,需要以组态的方式进行设计、配置和管理和监控。通过在输入和输出端点之间,组装多个处理流程,既能直观地对处理过程进行把控,也使得设定好的流程一目了然,便于维护和调整。同时组态过程中,可以对在不同环节查看处理的结果,以用于转换流程的设计和调试。对于正常运行的流程,还可以统计每个节点的处理情况,例如已处理的总数。
任务调度模块:处理流程需要对处理的速率进行控制,对于输入端,同时支持主动获取和被动接收两种处理方式,对于输出端,支持被动调用和主动发送两种方式。而在主动进行获取和发送的模式内,应当支持设定不同的频率,避免无意义的重复调用,在满足业务需求的情况下,合理分配和使用资源。
为了实现数据的共享及访问,所述电力行业基础数据清理系统还包括数据检索模块、数据调用模块及数据同步模块。具体地:
数据检索模块:针对标识,需要支持树状检索、条件检索、精确检索、模糊检索等;对于时序数据的检索,需要支持按照标识获取最新数据、按照时间范围获取历史数据的功能,历史数据还需要支持按照一定的方法进行稀疏或补全;对于关系数据的检索,需要支持标识检索、条件检索、关联检索、分组统计等功能。
数据调用模块:提供通用、规范的Restful接口,供应用以及外部系统调用数据时使用;除被动调用外,还可以采用主动发送的方式,供外部系统获得数据,例如通过数据发送程序,将数据发送到指定的目标。
数据同步模块:对于分布于不同数据池内的数据,应当提供同步机制,以满足不同数据池之间的共享需求。数据同步需要支持历史同步和实时同步功能,同时支持增量同步和全量同步两种模式。针对不同的数据类型,设定不同的同步频率和方式。基于安全的考虑,在某些情况下,进行同步的两个系统之间,只能单向传送(例如有隔离设备的情况),在此类情况下就需要同步服务进行支持,针对不同的隔离系统,其传送限制也不尽相同,因此需要支持组件化开发,在面对新的隔离限制规则时,仅开发相应的适配协议即可。
为了满足不同用户群体的使用,所述电力行业基础数据清理系统还包括系统服务模块、数据服务模块及应用展示模块。具体地:
系统服务模块:从系统服务的角度,可以支持不同单位、部门使用相同的软硬件系统,但需要为不同的租户创建独立的数据存储区域和微服务实例,以确保相互之间的数据安全和服务能力,需要支持对不同租户的不同服务,设定不同的资源。同时需要提供不同租户对自己所拥有的数据、服务的管理能力。对于此方面,建议采用Docker容器化的方式进行管理,合理分配资源,虚拟机的方式占用大量资源,且难于管理、运维,应避免使用。
数据服务模块:从数据服务的角度,系统应当为不同的数据设定权限,以数据标识为依据,不同的用户组仅可以访问各自权限的及其数据,不同级别的用户所能访问到的数据也跟其权限相关,权限的设定可以依照用户的级别(如集团级、分公司级、厂站级),以及部门的不同进行相应授权。
应用展示模块:从应用展示的角度,不同的用户所能看到的应用也应有所不同,例如集团用户可以看到集团所有分公司的统计信息,而厂站则只能看到自己厂站内的数据信息。
为了管理监控应用,所述电力行业基础数据清理系统还包括组态展示模块、数据分析模块及编码管理模块。具体地:
组态展示模块,提供可视化组态展示工具,用户可以灵活配置所需的监视软件,从而来展示数据挖掘结果。并且可利用组态编辑工具开发多种量化状态监视、报警软件。
数据分析模块,用于按编码、中文名或模糊查询方式检索实时工业数据。需要说明的是,数据分析模块可对系统的所有数据,按编码、中文名、模糊查询等方式检索数据,并显示实时值、历史趋势、编码信息等内容;对所关心的数据可以进行下载,导出,绘制趋势曲线,进行关联分析等操作。
编码管理模块:用于进行编码配置和维护工作,实现数据的KKS标准化管理。编码管理能实现KKS编码录入,修改,删除,批量添加,批量修改,导入导出,查看历史趋势和实时趋势功能,能实现多流域多厂站kks数据标准化,统一检索统一管理。
另外,所述电力行业基础数据清理系统采用微服务架构,并采用Docker容器化技术进行管理。
相对于传统单点系统,微服务系统将不同业务需求的功能进行单独封装,能够避免不同业务功能之间资源的竞争和业务流程的影响,同时对于不同功能的使用频率,可以增设不同的运行实例以扩展性能;另外微服务可以将一个复杂的大系统分成多个简单的小服务,减少业务技术难度,从而降低开发成本。且微服务在定义上更独立,更标准,方便不同供应商参与协同开发以及后续功能的升级。相应地,为满足管理及业务需求,本系统应当根据功能范围,划分为多个微服务,基于管理角度,应当包含调度管理微服务、多租户管理微服务;基于数据角度,应当包含数据的同步、检索、调用及转换等服务。
同时,对于本系统所包含的服务组件,需要有统一的管理界面进行调度,包含启动、停止、删除、配置、备份等功能,为满足以上管理需求,需采用Docker容器化技术对容器进行封装,基于Docker的管理接口完成以上调度功能。
因此,本系统建议采用微服务架构,同时使用Docker容器化技术对服务进行管理,减少运维管理工作量和难度,提高效率,降低成本。
综上所述,本发明的设计需采用主流大数据平台框架,并结合人工智能等技术手段,从不同用户的使用角度,支撑此后需求的加深和扩展,具有稳定高效、便于使用、易于管理、性能可扩展、功能易增加等特点。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种电力行业基础数据清理的方法,其特征在于,包括:
采集电站设备的实时工业数据;
对所述实时工业数据进行检查及梳理;
从所述实时工业数据的生产阶段对所述实时工业数据进行清洗及管理;所述从实时工业数据的生产阶段对实时工业数据进行清洗及管理的方法包括:根据数据属性分别对实时工业数据进行清洗及管理,所述数据属性包括时间属性、模型属性及源系统属性;根据数据的获取通道分别对实时工业数据进行清洗及管理,所述获取通道包括数据采集通道、数据抽取通道及衍生计算通道;
从所述实时工业数据的维护阶段对所述实时工业数据进行清洗及管理;
从所述实时工业数据的使用阶段对所述实时工业数据进行清洗及管理。
2.如权利要求1所述的电力行业基础数据清理的方法,其特征在于,所述对实时工业数据进行检查及梳理的方法包括:
针对水电站站控层和风电场控制系统发电业务数据进行检查和梳理;
针对有问题的数据源,深入水电和风电机组内部,对机组业务数据和通信规约进行检查和梳理。
3.如权利要求1所述的电力行业基础数据清理的方法,其特征在于,所述从实时工业数据的维护阶段对实时工业数据进行清洗及管理的方法包括:
构建数据资产清册,所述数据资产清册包括检索模式、全量数据表及主备源数据;
构建存储数据库,所述存储数据库包括时序数据库、关系数据库、非结构数据库及流媒体数据库;
构建安全保障,所述安全保障包括链路安全、租户安全、内容安全及防护安全;
构建数据服务,所述数据服务包括调度管理、多租户管理、数据同步、隔离同步、数据检索及数据调用。
4.如权利要求1所述的电力行业基础数据清理的方法,其特征在于,所述从实时工业数据的使用阶段对实时工业数据进行清洗及管理的方法包括:
依据应用场景分别对实时工业数据进行清洗及管理,所述应用场景包括实时监视、关联展示、历史展示及模型展示;
依据算法模型分别对实时工业数据进行清洗及管理,所述算法模型包括单一量时间模型、多个量时间模型、多个量关联模型、多个量机理模型及多个量其它模型。
5.如权利要求1所述的电力行业基础数据清理的方法,其特征在于,所述采集电站设备的实时工业数据的方法包括:
被动接收电站设备的实时工业数据;
主动采集电站设备的实时工业数据。
6.一种电力行业基础数据清理系统,其特征在于,包括:
采集模块,用于采集电站设备的实时工业数据;
检查及梳理模块,用于对所述实时工业数据进行检查及梳理;
清洗及管理模块,用于从数据的生产阶段、维护阶段及使用阶段分别对所述实时工业数据进行清洗及管理;
所述清洗及管理模块包括生产阶段清洗单元,所述生产阶段清洗单元,用于根据数据属性及数据的获取通道分别对实时工业数据进行清洗及管理,其中,所述数据属性包括时间属性、模型属性及源系统属性,所述获取通道包括数据采集通道、数据抽取通道及衍生计算通道。
7.如权利要求6所述的电力行业基础数据清理系统,其特征在于,所述清洗及管理模块还包括:
维护阶段清洗单元,用于构建数据资产清册、存储数据库、安全保障及数据服务,其中,所述数据资产清册包括检索模式、全量数据表及主备源数据,所述存储数据库包括时序数据库、关系数据库、非结构数据库及流媒体数据库,所述安全保障包括链路安全、租户安全、内容安全及防护安全,所述数据服务包括调度管理、多租户管理、数据同步、隔离同步、数据检索及数据调用;
使用阶段清洗单元,用于依据应用场景及算法模型分别对实时工业数据进行清洗及管理,其中,所述应用场景包括实时监视、关联展示、历史展示及模型展示,所述算法模型包括单一量时间模型、多个量时间模型、多个量关联模型、多个量机理模型及多个量其它模型。
8.如权利要求6所述的电力行业基础数据清理系统,其特征在于,还包括数据分析模块,用于按编码、中文名或模糊查询方式检索实时工业数据。
9.如权利要求6~8任一项所述的电力行业基础数据清理系统,其特征在于,所述电力行业基础数据清理系统采用微服务架构,并采用Docker容器化技术进行管理。
CN202010171013.0A 2020-03-12 2020-03-12 电力行业基础数据清理的方法及系统 Active CN111538720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171013.0A CN111538720B (zh) 2020-03-12 2020-03-12 电力行业基础数据清理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171013.0A CN111538720B (zh) 2020-03-12 2020-03-12 电力行业基础数据清理的方法及系统

Publications (2)

Publication Number Publication Date
CN111538720A CN111538720A (zh) 2020-08-14
CN111538720B true CN111538720B (zh) 2023-07-21

Family

ID=71976753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171013.0A Active CN111538720B (zh) 2020-03-12 2020-03-12 电力行业基础数据清理的方法及系统

Country Status (1)

Country Link
CN (1) CN111538720B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348698A (zh) * 2020-10-30 2021-02-09 中核核电运行管理有限公司 核电厂群堆管理方法、装置及系统
CN113704402A (zh) * 2021-08-20 2021-11-26 湖南五凌电力科技有限公司 一种水电时序数据的编码方法及系统
CN114462058A (zh) * 2021-12-21 2022-05-10 中科环森智慧科技(苏州)有限公司 一种智能感知数据处理平台
CN114722037B (zh) * 2022-05-16 2022-08-26 中国信息通信研究院 工业互联网中间件数据处理方法、中间件和可读存储介质
CN116881238A (zh) * 2023-07-12 2023-10-13 浙江浙能能源服务有限公司 一种基于微服务架构的电力市场用户管理saas平台及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609501A (zh) * 2012-02-02 2012-07-25 北京华电天仁电力控制技术有限公司 一种基于实时历史数据库的数据清洗方法
CN104036001A (zh) * 2014-06-13 2014-09-10 上海新炬网络技术有限公司 基于热表动态优先调度的数据快速清理方法
CN105278373A (zh) * 2015-10-16 2016-01-27 中国南方电网有限责任公司电网技术研究中心 一种变电站综合信息处理系统的实现方法
CN106777227A (zh) * 2016-12-26 2017-05-31 河南信安通信技术股份有限公司 基于云平台的多维数据融合分析系统及方法
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN107908690A (zh) * 2017-11-01 2018-04-13 南京欣网互联网络科技有限公司 一种基于大数据运营分析的数据处理方法
CN109947754A (zh) * 2019-01-28 2019-06-28 中科恒运股份有限公司 数据清洗方法及装置
CN110489459A (zh) * 2019-08-07 2019-11-22 国网安徽省电力有限公司 一种基于大数据平台的企业级业数融合数据分析系统
CN110618983A (zh) * 2019-08-15 2019-12-27 复旦大学 基于json文档结构的工业大数据多维分析与可视化方法
CN110727666A (zh) * 2019-09-25 2020-01-24 中冶赛迪重庆信息技术有限公司 面向工业互联网平台的缓存组件、方法、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680600B2 (en) * 2007-07-25 2010-03-16 Schlumberger Technology Corporation Method, system and apparatus for formation tester data processing
US10459932B2 (en) * 2014-12-18 2019-10-29 Business Objects Software Ltd Visualizing large data volumes utilizing initial sampling and multi-stage calculations

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609501A (zh) * 2012-02-02 2012-07-25 北京华电天仁电力控制技术有限公司 一种基于实时历史数据库的数据清洗方法
CN104036001A (zh) * 2014-06-13 2014-09-10 上海新炬网络技术有限公司 基于热表动态优先调度的数据快速清理方法
CN105278373A (zh) * 2015-10-16 2016-01-27 中国南方电网有限责任公司电网技术研究中心 一种变电站综合信息处理系统的实现方法
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN106777227A (zh) * 2016-12-26 2017-05-31 河南信安通信技术股份有限公司 基于云平台的多维数据融合分析系统及方法
CN107908690A (zh) * 2017-11-01 2018-04-13 南京欣网互联网络科技有限公司 一种基于大数据运营分析的数据处理方法
CN109947754A (zh) * 2019-01-28 2019-06-28 中科恒运股份有限公司 数据清洗方法及装置
CN110489459A (zh) * 2019-08-07 2019-11-22 国网安徽省电力有限公司 一种基于大数据平台的企业级业数融合数据分析系统
CN110618983A (zh) * 2019-08-15 2019-12-27 复旦大学 基于json文档结构的工业大数据多维分析与可视化方法
CN110727666A (zh) * 2019-09-25 2020-01-24 中冶赛迪重庆信息技术有限公司 面向工业互联网平台的缓存组件、方法、设备及存储介质

Also Published As

Publication number Publication date
CN111538720A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111538720B (zh) 电力行业基础数据清理的方法及系统
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
CN110765337B (zh) 一种基于互联网大数据的服务提供方法
CN112396404A (zh) 一种数据中台系统
CN113094385B (zh) 一种基于软件定义开放工具集的数据共享融合平台及方法
CN117521969B (zh) 一种基于数字孪生的智慧园区运行指数计算系统
CN110549336A (zh) 一种变电站巡检机器人集控主站系统
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN112988919A (zh) 一种电网数据集市构建方法、系统、终端设备及存储介质
CN113706101B (zh) 电网项目管理智能系统架构及方法
US9123006B2 (en) Techniques for parallel business intelligence evaluation and management
CN114153920A (zh) 大数据边平台与方法
CN114706994A (zh) 一种基于知识库的运维管理系统和方法
CN110826974A (zh) 一种科技成果转化/孵化大数据云平台互联网+系统
CN114626807A (zh) 核电场景管理方法、系统、装置、计算机设备和存储介质
CN115936296A (zh) 基于工业互联网大数据湖的离散制造企业生产制造数据驾驶舱系统
CN116957233A (zh) 基于新能源电力生产运营期数据报表管理系统
CN116307570A (zh) 一种基于区块链技术的地铁车辆电子履历系统
Wu et al. An Auxiliary Decision‐Making System for Electric Power Intelligent Customer Service Based on Hadoop
CN117971950A (zh) 一种业务数据的共享平台及其局域传输装置
CN116340536A (zh) 运维知识图谱构建方法、装置、设备、介质及程序产品
CN112306992A (zh) 一种基于互联网的大数据平台
Liu Design and Application of Experimental Data Management System Integrating Remote Monitoring and Historical Data Analysis
CN111797156A (zh) 一种人工智能微服务系统
CN115934856A (zh) 一种构造综合能源数据资产的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载