发明内容
本申请提供了一种基于机器学习的政务大数据处理方法及装置,以解决的政务大数据处理系统存在数据预处理效率低的技术问题。
为了解决上述技术问题,第一方面。本申请实施例提供了一种基于机器学习的政务大数据处理方法,包括:
获取政务日志数据;
在预设搜索空间中,确定用于对政务日志数据进行预处理的预设数据处理模型;
基于调优器技术和评估器技术,对预设数据处理模型进行优化训练,直至得到最优数据处理模型;
利用最优数据处理模型,对政务日志数据进行预处理,得到高质量政务数据;
对高质量政务数据进行存储或可视化展示。
本实施例通过获取政务日志数据,在预设搜索空间中,确定用于对政务日志数据进行预处理的预设数据处理模型,从而使政务日志数据能够在预设搜索空间基于机器学习实现自动化处理;基于调优器技术和评估器技术,对预设数据处理模型进行优化训练,直至得到最优数据处理模型,从而避免传统手动流程容易出错、效率不高且难于管理的问题,并且更好的解决因缺乏配置和优化不同类型算法的专业知识而导致的配置调参困难的问题;最后利用最优数据处理模型,对政务日志数据进行预处理,得到高质量政务数据,以及对高质量政务数据进行存储或可视化展示,提高数据预处理能力,提升实时批量采集、精准过滤的效率。
在一实施例中,在预设搜索空间中,确定用于对政务日志数据进行预处理的预设数据处理模型,包括:
在预设搜索空间中,根据政务日志数据,选取包含默认网络结构和超参数的模型文件;
根据预设的模型损失期望值,确定迭代算法的算法文件,预设数据处理模型包括模型文件和算法文件。
本实施例通过在预设搜索空间,自动确定模型文件和算法文件,以实现模型选择和算法选择的自动化,提高模型部署训练效率,从而提高数据预处理效率。
在一实施例中,基于调优器技术和评估器技术,对预设数据处理模型进行优化训练,直至得到最优数据处理模型,包括:
利用预设的调优器,对预设数据处理模型进行训练,得到目标数据处理模型,目标数据处理模型包括模型参数;
利用预设的评估器,根据模型参数,对目标数据处理模型进行评估,得到模型评估结果;
利用调优器,根据模型评估结果,对目标数据处理模型进行初始化;
基于调优器和评估器,对初始化后的目标数据处理模型进行循环优化,直至目标数据处理模型达到预设收敛条件,得到最优数据处理模型。
本实施例通过调优器和评估器不断循环优化模型参数,以得到调整采集和过滤大数据处理机制的智能模型,实现模型自动化调参,解决大人工调参因步骤繁杂而出错的问题,节省时间和降低人力成本。
在一优选实施例中,利用预设的调优器,对预设数据处理模型进行训练,得到目标数据处理模型,包括:
利用调优器,根据预设优化方式,对预设数据处理模型进行训练,得到目标数据处理模型,预设优化方式包括启发式搜索方式、非导优化方式和强化学习方式。
本实施例通过启发式搜索方式、非导优化方式或强化学习方式等预设优化方式进行训练,而不需要特定的假设条件且使模型训练更加高效。
在一优选实施例中,利用预设的评估器,根据模型参数,对目标数据处理模型进行评估,得到模型评估结果,包括:
利用评估器采用预设辅助评估法,根据模型参数,对目标数据处理模型进行辅助评估,得到模型评估结果,预设辅助评估法包括子取样法、参数复用法和代理评估法。
本实施例通过子取样法、参数复用法或代理评估法等辅助评估法进行评估,避免因数据量增大和迭代次数增多而增大评估过程的负担,减少了评估过程的资源消耗。
在一优选实施例中,利用调优器,根据模型评估结果,对目标数据处理模型进行初始化,包括:
利用调优器采用经验学习算法,确定模型评估结果对应的最优模型参数;
根据最优模型参数,对目标数据处理模型进行初始化。
本实施例通过引入机器经验进行调参,以加快网络结构的训练过程,极大提升优化训练的效率。
第二方面,本申请实施例提供一种基于机器学习的政务大数据处理装置,包括:
获取模块,用于获取政务日志数据;
确定模块,用于在预设搜索空间中,确定用于对政务日志数据进行预处理的预设数据处理模型;
训练模块,用于基于调优器技术和评估器技术,对预设数据处理模型进行优化训练,直至得到最优数据处理模型;
处理模块,用于利用最优数据处理模型,对政务日志数据进行预处理,得到高质量政务数据;
展示模块,用于对高质量政务数据进行存储或可视化展示。
在一实施例中,训练模块,包括:
训练单元,用于利用预设的调优器,对预设数据处理模型进行训练,得到目标数据处理模型,目标数据处理模型包括模型参数;
评估单元,用于利用预设的评估器,根据模型参数,对目标数据处理模型进行评估,得到模型评估结果;
初始化单元,用于利用调优器,根据模型评估结果,对目标数据处理模型进行初始化;
循环单元,用于基于调优器和评估器,对初始化后的目标数据处理模型进行循环优化,直至目标数据处理模型达到预设收敛条件,得到最优数据处理模型。
第三方面,本申请实施例提供一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的基于机器学习的政务大数据处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于机器学习的政务大数据处理方法。
需要说明的是,上述第二方面至第四方面的有益效果请参见上述第一方面的相关描述,在此不再赘述。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如相关技术记载,智慧城市政务大数据平台面临挑战:传统数据预处理包括数据清洗、数据采样、数据处理和数据分割等过程,每个过程都有多种备选方法,而在选择方法前,往往需要先对数据进行数据分析,整个数据预处理过程往往重复而耗时,导致政务大数据处理系统的数据预处理效率非常低。
为此,本申请实施例提供的一种基于机器学习的政务大数据处理方法及装置,通过获取政务日志数据,在预设搜索空间中,确定用于对政务日志数据进行预处理的预设数据处理模型,从而使政务日志数据能够在预设搜索空间基于机器学习实现自动化处理;基于调优器技术和评估器技术,对预设数据处理模型进行优化训练,直至得到最优数据处理模型,从而避免传统手动流程容易出错、效率不高且难于管理的问题,并且更好的解决因缺乏配置和优化不同类型算法的专业知识而导致的配置调参困难的问题;最后利用最优数据处理模型,对政务日志数据进行预处理,得到高质量政务数据,以及对高质量政务数据进行存储或可视化展示,提高数据预处理能力,提升实时批量采集、精准过滤的效率。
请参照图1,图1为本申请实施例提供的一种基于机器学习的政务大数据处理方法的流程示意图。本申请实施例的基于机器学习的政务大数据处理方法可应用于计算机设备,该计算机设备包括但不限于智能手机、平板电脑、笔记本电脑、桌上型计算机、物理服务器或云端服务器。如图1所示,基于机器学习的政务大数据处理包括步骤S101至S105,详述如下:
步骤S101,获取政务日志数据。
在本步骤中,政务日志数据为政务系统的日志数据。可选地,通过Logstash数据引擎采集政务日志数据,将采集到的政务日志数据传输至本计算机设备。可以理解的是,Logstash数据引擎支持动态的从各种数据源搜集数据,并对数据进行过滤、分析、丰富、统一格式等操作,然后存储到预设存储空间。
步骤S102,在预设搜索空间中,确定用于对所述政务日志数据进行预处理的预设数据处理模型。
在本步骤中,预设搜索空间包括多个备选模型的模型文件和算法文件,模型文件包含模型网络结构和模型超参数。本实施例确定预设数据处理模型包括确定模型文件和算法文件。
步骤S103,基于调优器技术和评估器技术,对所述预设数据处理模型进行优化训练,直至得到最优数据处理模型。
在本步骤中,调优器用于通过样本优化模型,评估器用于模型性能评估。可选地,利用调优器对模型进行训练,训练完成后,从Logstash数据引擎获取验证数据集,以通过评估器验证模型效果,从而得到验证数据集的每个样本的LOSS信息,调优器再根据验证数据集的每个样本的LOSS信息,通过机器学习技术,自动调整网络结构和超参数,以此类推,通过循环不断的机器学习来优化模型,迭代最优模型方案和训练出当前最优模型,从而调整采集、过滤大数据的处理机制,解决人工调整参数的繁杂问题,降低人力成本,提升模型价值。
步骤S104,利用所述最优数据处理模型,对所述政务日志数据进行预处理,得到高质量政务数据。
在本步骤中,利用最优数据处理模型,对政务日志数据进行预处理,得到高质量政务数据,提升实时数据预处理的效率。
步骤S105,对所述高质量政务数据进行存储或可视化展示。
在本步骤中,可选地,通过Elasticsearch分布式搜索分析引擎进行数据存储,该引擎具有高可伸缩、高可靠和易管理等特点,其可以基于Apache Lucene构建,能对大容量数据进行接近实时的存储、搜索和分析操作。
可选地,通过Kibana数据分析和可视化平台,与Elasticsearch配合使用,对Elasticsearch的数据进行搜索、分析和以统计图表的方式展示,其可以多维度的展示es中的数据。
在一实施例中,在图1所示实施例的基础上,所述步骤S102,包括:
在所述预设搜索空间中,根据所述政务日志数据,选取包含默认网络结构和超参数的模型文件;
根据预设的模型损失期望值,确定迭代算法的算法文件,所述预设数据处理模型包括所述模型文件和所述算法文件。
在本实施例中,由于同一个问题可能有多个备选模型,且每个模型的超参数也是未知的问题,相比于传统方法通过用户专业知识以及反复测试得到“最优”结果,本申请通过在搜索空间预设多个备选模型和模型对应的超参数,并在实际应用时,通过政务日志数据,选取包含默认网络结果和超参数的模型文件,能够实现模型文件的自动化选取。
算法文件选择的目的是自动找到一个优化算法以平衡模型效率和模型表现。示例性地,目标是最小化平滑目标函数,则计算机设备可以在梯度下降算法、随机梯度下降算法和L-BGFS算法中进行选择。其中梯度下降算法有较少的超参数,但是其模型收敛速度较慢,每个迭代过程的复杂度高;L-BFGS的资源消耗更高,但是其模型收敛速度更快,随机梯度下降算法的每个迭代过程的消耗很小,但是迭代次数较多。若预设模型损失期望值为模型收敛块,则计算机设备可以三者之中权衡效率和表现,以选择最优算法。
在一实施例中,在图1所示实施例的基础上,所述步骤S103,包括:
利用预设的调优器,对所述预设数据处理模型进行训练,得到目标数据处理模型,所述目标数据处理模型包括模型参数;
利用预设的评估器,根据所述模型参数,对所述目标数据处理模型进行评估,得到模型评估结果;
利用所述调优器,根据所述模型评估结果,对所述目标数据处理模型进行初始化;
基于所述调优器和所述评估器,对初始化后的所述目标数据处理模型进行循环优化,直至所述目标数据处理模型达到预设收敛条件,得到所述最优数据处理模型。
可选地,上述利用预设的调优器,对所述预设数据处理模型进行训练,得到目标数据处理模型,包括:
利用所述调优器,根据预设优化方式,对所述预设数据处理模型进行训练,得到目标数据处理模型,所述预设优化方式包括启发式搜索方式、非导优化方式和强化学习方式。
在本实施例中,对于调优器技术来说,预设优化方式为样本优化方法,样本优化法包括启发式搜索方式、基于模型的非导优化方式和强化学习方式。
启发式搜索方式:取灵感于生物行为和现象,广泛用于非凸,不平滑,不连续的调优问题。基础思想是初始化一个群体,通过调优器和原种群获得新群体,然后评估新种群,重复迭代上述过程。
基于模型的非导优化方式:通过样本构建模型,之后根据评估生成新的样本,然后重复迭代上述过程,以达到有目标的空间搜索的目的,可以用于不可导的空间优化,其主要包括贝叶斯优化、基于分类的优化以及同步乐观优化。
①贝叶斯优化:通过构建一个概率模型(例如高斯过程,树模型,深度网络),之后基于概率模型定义一个采集函数(例如期望提升,上置信界限),每次迭代由采集函数获得新样本,用于更新概率函数。贝叶斯优化有收敛速度快的优点。
②基于分类的优化:通过旧样本训练一个分类器,将搜索空间分为正负区域,正区域中的样本更可能得到优秀结果,所以新样本从正区域获得,迭代上述步骤,该方法的优点是非常高效。
③同步乐观优化是一种分支界限优化算法。在搜索空间内构造一个树结构,每个叶子节点为一个小区域,协调深度和广度,找到全局最优点。
强化学习方式是一种广泛并强大的优化框架,通过延迟反馈解决问题,与其他优化方法的区别在于它存在延迟反馈,以给学习增加时序的概念。其包括策略学习和Q-learning。
策略学习:通过把策略看作是函数,只有当前状态一个输入,根据事先的策略决定当前状态下该执行的动作,但是要事先知道策略并不是件容易事,其中需要深入理解这个把状态映射到目标的复杂函数。
Q-Learning:与策略学习不同,Q-Learning算法有两个输入,分别是状态和动作,并为每个状态动作对返回对应值。当面临选择时,这个算法会计算出该代理采取不同动作时对应的期望值,以选出最优结果。
可选地,上述利用预设的评估器,根据所述模型参数,对所述目标数据处理模型进行评估,得到模型评估结果,包括:
利用所述评估器采用预设辅助评估法,根据所述模型参数,对所述目标数据处理模型进行辅助评估,得到模型评估结果,所述预设辅助评估法包括子取样法、参数复用法和代理评估法。
在本实施例中,相对于调优器技术来说,评估器的整体消耗要大得多,其中直接评估是最简单的方法,直接训练模型后评估,虽然准确但是消耗较大。随着数据量的增大和迭代次数的增多,直接评估无疑会给整个过程造成极大的负担。为了改善直接评估效率,本实施例设计了以下方法以辅助直接评估方法,来减少其消耗。
子取样法:使用原样本或特征子集进行评估,训练数据越少,速度越快,噪音越多。提前终止:不同于传统机器学习中,提前终止用于防止过拟合。这里是当遇到没有前途的配置信息,可以直接终止评估,免除不必要的浪费。
参数复用:对于差异不大的配置信息,可以使用先前的参数作为起始信息,这样可以加快收敛速度,得到更好的表现。
代理评估:假如配置信息可以被量化,可以通过构建代理模型来预测所给配置的表现。
可选地,上述利用所述调优器,根据所述模型评估结果,对所述目标数据处理模型进行初始化,包括:
利用所述调优器采用经验学习算法,确定所述模型评估结果对应的最优模型参数;
根据所述最优模型参数,对所述目标数据处理模型进行初始化。
在本实施例中,经验学习算法通过在配置生成和评估过程中减少消耗以提高自动化机器学习的效率。经验学习算法包括元学习和迁移学习。
元学习通过提取元信息来指导学习。元学习首先要将学习问题和学习工具特征化(例如数据的统计的特征,学习工具的超参),然后从过去的经验的中提取出来的元特征,最后元学习器可以用元知识进行训练。元学习在自动化机器学习中有着重要意义,一方面,通过特征化学习问题和学习工具,可以发现重要的信息,比如数据中存在数据漂移(模型随时间推移不再准确),其次,伴随着特征化,容易发现相似的问题,从而能够知识可以在不同的问题间复用和转移。另一方面,元学习器编码过去的知识作为指导以解决未来的问题。元学习可以运用于评估器中,以降低评估过程中训练所造成的的巨大消耗。通过把配置信息输入先前训练好的元学习器进行评估,以预测配置的表现或者适应度,最理想情况下,如果所有的配置已经被枚举出来,元学习器可以直接选出最优配置。元学习也可以运用于调优器中,通过优化搜索空间,以减少调优过程的无意义消耗,在配置生成阶段,通过先前经验所得的元学习器,提取学习问题的特征作为输入来预测有前途的配置。同时可以应用于迁移学习,通过运用与之前任务元特征空间最相近的配置作为初始化数据来进行配置生成热启动。除此之外,元学习还可以应用于动态配置自适应,通过数据和特征的统计值,检测是否有概念漂移出现,一旦发现概念漂移,则重新预测有前景的配置,以保证模型可用性。
迁移学习通过使用先前的经验来指导学习,在机器学习中则是复用之前最优的训练过的代理模型或者是搜索策略,来节约消耗。在调优过程中,可以进行代理模型迁移,在网络结构问题中,由于网络的可转移性,迁移学习也广泛运用在神经架构搜索中。迁移学习运用在评估器中,可以加快对于预选配置的评估。对于一般的优化问题,迁移学习可以迁移模型参数,通过使用训练过的最优参数来进行初始化。另一种迁移学习的思路是通过功能保留转换,例如Net2Net,通过要求和先前训练模型相同的功能来初始化新的网络,以加快网络结构的训练过程,极大提升效率。
为了执行上述方法实施例对应的基于机器学习的政务大数据处理方法,以实现相应的功能和技术效果。参见图2,图2示出了本申请实施例提供的一种基于机器学习的政务大数据处理装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分,本申请实施例提供的基于机器学习的政务大数据处理装置,包括:
获取模块201,用于获取政务日志数据;
确定模块202,用于在预设搜索空间中,确定用于对所述政务日志数据进行预处理的预设数据处理模型;
训练模块203,用于基于调优器技术和评估器技术,对所述预设数据处理模型进行优化训练,直至得到最优数据处理模型;
处理模块204,用于利用所述最优数据处理模型,对所述政务日志数据进行预处理,得到高质量政务数据;
展示模块205,用于对所述高质量政务数据进行存储或可视化展示。
在一实施例中,确定模块202,包括:
选取单元,用于在所述预设搜索空间中,根据所述政务日志数据,选取包含默认网络结构和超参数的模型文件;
确定单元,用于根据预设的模型损失期望值,确定迭代算法的算法文件,所述预设数据处理模型包括所述模型文件和所述算法文件。
在一实施例中,所述训练模块203,包括:
训练单元,用于利用预设的调优器,对所述预设数据处理模型进行训练,得到目标数据处理模型,所述目标数据处理模型包括模型参数;
评估单元,用于利用预设的评估器,根据所述模型参数,对所述目标数据处理模型进行评估,得到模型评估结果;
初始化单元,用于利用所述调优器,根据所述模型评估结果,对所述目标数据处理模型进行初始化;
循环单元,用于基于所述调优器和所述评估器,对初始化后的所述目标数据处理模型进行循环优化,直至所述目标数据处理模型达到预设收敛条件,得到所述最优数据处理模型。
在一优选实施例中,所述训练单元,包括:
训练子单元,用于利用所述调优器,根据预设优化方式,对所述预设数据处理模型进行训练,得到目标数据处理模型,所述预设优化方式包括启发式搜索方式、非导优化方式和强化学习方式。
在一优选实施例中,所述评估单元,包括:
评估子单元,用于利用所述评估器采用预设辅助评估法,根据所述模型参数,对所述目标数据处理模型进行辅助评估,得到模型评估结果,所述预设辅助评估法包括子取样法、参数复用法和代理评估法。
在一优选实施例中,所述初始化单元,包括:
确定子单元,用于利用所述调优器采用经验学习算法,确定所述模型评估结果对应的最优模型参数;
初始化子单元,用于根据所述最优模型参数,对所述目标数据处理模型进行初始化。
上述的基于机器学习的政务大数据处理装置可实施上述方法实施例的基于机器学习的政务大数据处理方法。上述方法实施例中的可选项也适用于本实施例,这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容,在本实施例中,不再进行赘述。
图3为本申请一实施例提供的计算机设备的结构示意图。如图3所示,该实施例的计算机设备3包括:至少一个处理器30(图3中仅示出一个)处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32,所述处理器30执行所述计算机程序32时实现上述任意方法实施例中的步骤。
所述计算机设备3可以是智能收集、平板电脑、桌上型计算机和云端服务器等计算设备。该计算机设备可包括但不仅限于处理器30、存储器31。本领域技术人员可以理解,图3仅仅是计算机设备3的举例,并不构成对计算机设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),该处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31在一些实施例中可以是所述计算机设备3的内部存储单元,例如计算机设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述计算机设备3的外部存储设备,例如所述计算机设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述计算机设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
另外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现上述各个方法实施例中的步骤。
在本申请所提供的几个实施例中,可以理解的是,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围。特别指出,对于本领域技术人员来说,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。