CN114416737B

CN114416737B - 基于动态权重均衡时序数据库集群的时序数据存储方法

Info

Publication number: CN114416737B
Application number: CN202210002029.8A
Authority: CN
Inventors: 刘涛; 瞿洪桂; 陈文彬; 涂刚
Original assignee: Beijing Sinonet Science and Technology Co Ltd
Current assignee: Beijing Sinonet Science and Technology Co Ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-08-05
Anticipated expiration: 2042-01-04
Also published as: CN114416737A

Abstract

本发明提供一种基于动态权重均衡时序数据库集群的时序数据存储方法，包括：时序数据库集群配置集群接口、发布订阅消息系统集群、读写器和m个时序数据库；集群接口启动时初始化生成n个虚拟桶，为每个虚拟桶确定分配区间段；采用基于动态权重均衡时序数据库集群的时序数据库选取算法，确定目标时序数据库，并存储数据。本发明提供一种基于动态权重均衡时序数据库集群的时序数据存储方法，用于物联网云端存储海量设备采集数据的场景，可以解决当前集群内各个时序数据库存储数据严重不均衡造成存储空间浪费和集群横向扩展困难的问题。通过本发明，能够将物联网设备采集数据均匀的存储到时序数据库集群中的各个时序数据库中，提高用户体验。

Description

基于动态权重均衡时序数据库集群的时序数据存储方法

技术领域

本发明属于时序数据存储技术领域，具体涉及一种基于动态权重均衡时序数据库集群的时序数据存储方法。

背景技术

物联网系统需要在云端利用时序数据库存储海量的设备采集数据，以供应用查询和分析使用。influx-proxy作为时序数据库(influxdb)的集群方案，解决了单机版时序数据库无法存储海量的设备采集数据的问题。由于influx-proxy基于hash算法为时序数据库集群中的各个时序数据库分配需存储的设备采集数据，具有时序数据库集群中的各个时序数据库存储的数据量严重不均衡的问题。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于动态权重均衡时序数据库集群的时序数据存储方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于动态权重均衡时序数据库集群的时序数据存储方法，包括以下步骤：

步骤1，时序数据库influxdb集群配置集群接口influx-gate、发布订阅消息系统集群kafka、读写器influx-writer和m个时序数据库influxdb，m个时序数据库influxdb依次表示为：时序数据库influxdb₁,时序数据库influxdb₂,...,时序数据库influxdb_m；

步骤2，集群接口influx-gate存储分配表；所述分配表用于存储时序数据库influxdb集群中所有的表measurement全局唯一ID以及其当前所在的时序数据库influxdb的地址IP的映射；

其中，所述表measurement全局唯一ID的产生过程为：如果表measurement用于存储特定设备的特定类型的时序数据，则通过对特定设备ID和数据特定类型ID进行组合，得到表measurement全局唯一ID；

步骤3，集群接口influx-gate存储当前最新的时序数据库剩余空间统计表；

所述时序数据库剩余空间统计表存储每个时序数据库influxdb_i的当前剩余空间S_i；其中，i＝1,2,...,m；还通过对所有时序数据库influxdb的当前剩余空间求和，得到集群总剩余空间S_总；

步骤4，虚拟桶的分配区间段的分配方法：

步骤4.1，集群接口influx-gate启动时初始化生成n个虚拟桶，分别表示为：虚拟桶

虚拟桶

虚拟桶

步骤4.2，集群接口influx-gate生成每个虚拟桶的虚拟桶全局唯一ID，然后计算虚拟桶全局唯一ID的md5值，取md5值最后四个字节，作为虚拟桶整数字段；因此，虚拟桶整数字段的取值范围为：[0000，9999]；

因此，对于虚拟桶

虚拟桶

虚拟桶

其对应的虚拟桶整数字段依次表示为：

步骤4.3，将n个虚拟桶按虚拟桶整数字段从小到大顺序排序，排序后的虚拟桶表示为：虚拟桶

虚拟桶

虚拟桶

对应的虚拟桶整数字段排序表示为：

步骤4.4，对于任意虚拟桶

其中，j＝1,2,...,n，采用以下方法，得到其分配区间段KP_j；

虚拟桶

的虚拟桶整数字段为

如果j＝1，则分配区间段

如果j≠1，则分配区间段

因此，对于虚拟桶

虚拟桶

虚拟桶

其对应的分配区间段为：KP₁，KP₂,...,KP_n；

分配区间段KP₁，KP₂,...,KP_n的长度依次为：F₁，F₂,...,F_n；

则：n个分配区间段的长度的标准差，小于设定阈值，各个分配区间段的长度趋于相等；通过此种方式，将完整整数空间[0,2³²-1]划分成n个分配区间段；

步骤5，每当集群接口influx-gate接收到一个写入数据请求时，所述集群接口influx-gate对所述写入数据请求进行分析，得到待写入数据对应的设备ID和数据类型ID，然后，对所述设备ID和数据类型ID进行组合，得到表measurement全局唯一ID，表示为：表measurement全局唯一ID(new)；

步骤6，所述集群接口influx-gate查找步骤2的所述分配表，判断所述分配表中，是否存在步骤5得到的表measurement全局唯一ID(new)的记录，如果不存在，则执行步骤7；如果存在，则获得表measurement全局唯一ID(new)对应的时序数据库influxdb的地址IP，作为目标时序数据库influxdb的地址IP，然后执行步骤8；

步骤7，所述集群接口influx-gate采用基于动态权重均衡时序数据库集群的时序数据库选取算法，从时序数据库influxdb₁,时序数据库influxdb₂,...,时序数据库influxdb_m中选取到目标时序数据库influxdb，得到目标时序数据库influxdb的地址IP，然后执行步骤8；

具体步骤为：

步骤7.1，所述集群接口influx-gate读取步骤3的所述当前最新的时序数据库剩余空间统计表，

计算得到集群中每个时序数据库influxdb_i的当前剩余空间S_i在集群总剩余空间S_总的比例R_i，再采用该比例R_i，乘以虚拟桶总数n，得到分配给该时序数据库influxdb_i的虚拟桶个数；

步骤7.2，按照步骤7.1得到的每个时序数据库influxdb_i所分配的虚拟桶个数，将n个虚拟桶分配给m个时序数据库influxdb，并得到虚拟桶分配表；

所述虚拟桶分配表，用于记录虚拟桶全局唯一ID、虚拟桶分配区间段以及虚拟桶所归属的时序数据库influxdb地址IP的映射；

步骤7.3，对于当前正在被处理的写入数据请求，所述集群接口influx-gate计算步骤5得到的表measurement全局唯一ID(new)的md5值，取md5值最后四个字节，作为表整数字段X(new)；

然后，以表整数字段X(new)为查询关键词，查找步骤7.2建立的虚拟桶分配表，得到包含表整数字段X(new)的虚拟桶分配区间段KP(new)，该虚拟桶分配区间段KP(new)所对应的时序数据库influxdb地址IP，即为查找到的目标时序数据库influxdb，由此得到目标时序数据库influxdb的地址IP；

步骤8，所述集群接口influx-gate，将当前需写入的数据、表measurement全局唯一ID(new)和目标时序数据库influxdb的地址IP打包为一个数据包，并将所述数据包写入到所述发布订阅消息系统集群kafka，由所述发布订阅消息系统集群kafka和读写器influx-writer配合，完成向目标时序数据库influxdb写入数据的过程；

所述集群接口influx-gate重新计算得到目标时序数据库influxdb的当前剩余空间以及集群总剩余空间S_总，更新步骤3的时序数据库剩余空间统计表和更新步骤2的分配表；然后返回步骤5，对下一个写入数据请求进行处理。

优选的，步骤8中，由所述发布订阅消息系统集群kafka和读写器influx-writer配合，完成向目标时序数据库influxdb写入数据的过程，具体为：

步骤8.1，所述读写器influx-writer，从所述发布订阅消息系统集群kafka中读取出所述数据包，通过对所述数据包进行解析，得到当前需写入的数据、表measurement全局唯一ID(new)和目标时序数据库influxdb的地址IP；

步骤8.2，所述读写器influx-writer根据目标时序数据库influxdb的地址IP，定位到目标时序数据库influxdb，然后向所述目标时序数据库influxdb发送当前需写入的数据以及对应的表measurement全局唯一ID(new)；

步骤8.3，所述目标时序数据库influxdb判断库中是否已存在全局唯一ID为表measurement全局唯一ID(new)的表；

如果存在，则直接向全局唯一ID为表measurement全局唯一ID(new)的表中，写入当前需写入的数据；

如果不存在，则所述目标时序数据库influxdb在库中新建全局唯一ID为表measurement全局唯一ID(new)的表，再向新建的表中，写入当前需写入的数据。

本发明提供的基于动态权重均衡时序数据库集群的时序数据存储方法具有以下优点：

本发明提供一种基于动态权重均衡时序数据库集群的时序数据存储方法，用于物联网云端存储海量设备采集数据的场景，可以解决当前influxdb集群内各个influxdb存储数据严重不均衡造成存储空间浪费和集群横向扩展困难的问题。通过本发明，能够将物联网设备采集数据均匀的存储到时序数据库集群中的各个时序数据库influxdb中，提高用户体验。

附图说明

图1为本发明提供的基于动态权重均衡时序数据库集群的时序数据存储方法的流程示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于动态权重均衡时序数据库集群的时序数据存储方法，基于该方法，能够将物联网设备采集数据均匀的存储到时序数据库集群中的各个时序数据库influxdb中，主要用于在物联网系统的云端存储海量物联网设备采集数据的场景，参考图1，包括以下步骤：

例如，设备E的温度数据、湿度数据和功率数据，分别为三种类型的时序数据，则：设备E的温度数据，通过一张表measurement存储，表measurement全局唯一ID为：设备E和温度类型ID的组合；

设备E的湿度数据，通过另一张表measurement存储，表measurement全局唯一ID为：设备E和湿度类型ID的组合；

设备E的功率数据，通过另一张表measurement存储，表measurement全局唯一ID为：设备E和功率类型ID的组合。

本发明中，集群接口influx-gateym作为influxdb集群门户，向外部系统提供写数据和查询数据的接口。

步骤4，虚拟桶的分配区间段的分配方法：

虚拟桶

虚拟桶

例如，可生成1000个虚拟桶。

因此，对于虚拟桶

虚拟桶

虚拟桶

其对应的虚拟桶整数字段依次表示为：

虚拟桶

虚拟桶

对应的虚拟桶整数字段排序表示为：

步骤4.4，对于任意虚拟桶

其中，j＝1,2,...,n，采用以下方法，得到其分配区间段KP_j；

虚拟桶

的虚拟桶整数字段为

如果j＝1，则分配区间段

如果j≠1，则分配区间段

因此，对于虚拟桶

虚拟桶

虚拟桶

其对应的分配区间段为：KP₁，KP₂,...,KP_n；

具体步骤为：

本步骤中，由所述发布订阅消息系统集群kafka和读写器influx-writer配合，完成向目标时序数据库influxdb写入数据的过程，具体为：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。