CN115934792A 审中 一种数组型时序数据压缩与跨维度查询方法
1.一种数组型时序数据压缩方法,其特征在于,方法的步骤如下,寻找数据的规律,根据数据规律进行压缩:根据数据的属性key寻找各个key之间的规律按照它们之间的规律,通过压缩器编码后形成新的key;再根据与原来的key对应的value找出压缩后的key与value的关系,以及每个value之间的联系,再对value进行压缩。 2.根据权利要求1所述的一种数组型时序数据压缩方法,其特征在于,所述方法针对于浮点型时序数据进行压缩时,设置失精的阈值,数据压缩不会超过这个阈值,防止当到达这个阈值后,导致数据有严重的磨损,使数据被破坏;以及防止当查询此数据时,导致数据返回不精确,影响数据的观测、分析和对数据的判断走势;当压缩数据后,用一条直线或是曲线匹配点位,拿出当前压缩后的点位与压缩前点位,计算出差值,并将点位连线成一个矩形,然后算出方差,留下方差小的,舍弃方差较大的数;当前点和上一个记录点形成的矩形无法包含中间的点时,把上一个点记录下来,然后能够看到,大部分的数据点都会被丢掉;查询的时候根据记录的点,把丢掉的点在查询的时候找回来,这样有损压缩不仅能够大幅减少存储成本,还能够减少数据的写入,降低网络带宽;数据压缩还支持使用为信号源中的每个符号设定二进制码,出现频率更大的符号将获得更短的比特,出现频率更小的符号将被分配更长的比特; 所述方法针对与数据性质无关的无损数据压缩时,使用变动长度的码来取代连续重复出现的原始数据,实现压缩:匹配多种算法压缩数据方式,根据添加的压缩条件,匹配一个最适合改数据的算法压缩数据方式;同时使得存储也特别安全,当数据库有丢失能够及时匹配另一种高性能的算法防止数据丢失。 3.根据权利要求1所述的一种数组型时序数据压缩方法,其特征在于,所述多种算法压缩数据方式包括:遵循IEEE754标准浮点数存储格式的数据特征设计算法、差分编码算法、XOR算法、RLE算法、Simple8b算法、Zig-zag算法、Delta-of-Delta算法、Snappy压缩算法、LZO块压缩算法、DEFLATE无损数据压缩算和Bit-packing位压缩算法。 4.一种数组型时序数据跨维度查询方法,采用上述一种数组型时序数据压缩方法压缩,包括如下步骤: S1:构建出时序数据库中数组型时序数据,通过构建出时序数据,保证实时存储当前采集到的时序数据,将数据保存在时序数据库中; S2:构建出根据时序数据物理的超表,查询数据时直观观察出时序数据; S3:将采集到的时序数据进行压缩,然后对时序数据进行分层处理,然后插入到时序数据库中; S4:基于时间和指定维度构建时序数据表的底层实现,对整体数据进行拆分,用于后续跨维度查询实现; S5:根据底层指定查询条件构造出通过时间,指定维度实现查询方法,从而实现时序数据的跨维度查询。 5.根据权利要求4所述的一种数组型时序数据跨维度查询方法,其特征在于,所述S1步骤中,首先是,要选用一个数据池,选择数据池的原则是提供高并发数据事务连接的应用场景,并在高并发应用场景下减少资源申请和释放开销,更快的响应应用内数据库客户端请求,解决多应用与时序数据频繁会话问题。 6.根据权利要求4所述的一种数组型时序数据跨维度查询方法,其特征在于,所述S1步骤中,其次是,要构建一种存储模型,当时序数据库所需要存储的时序数据字段较多的时候,构建数组表的时序数据表结构,并独立记录维度和指标信息,具有相同维度和指标类型或个数的设备模型,能够复用或独立存储于同种的指标表内,并最终转化为将指标值映射到字段的视图,提供使用。 7.根据权利要求4所述的一种数组型时序数据跨维度查询方法,其特征在于,所述S2步骤中,对时序数据进行分层处理,满足实际时序数据跨维度业务场景对时序数据性能以及时序数据库的容量要求,同时节省基础设施采购成本,整体实施的策略分为:热数据层、冷数据层和历史数据层。 8.根据权利要求7所述的一种数组型时序数据跨维度查询方法,其特征在于, 所述热数据层负责存储近期在时序数据库中频繁实时查询的原始数据指标,采用高性能存储类型,例如SSD介质;热数据层使用指定的表空间,每张超表会共享使用多个表空间,独立的chunk继承其中唯一的表空间做存储; 所述冷数据层随着时序数据的老化,热数据层的数据逐步迁移到冷数据层,通过TimescaleDB数据压缩后保存到存储介质上;冷数据层使用指定的表空间,与热数据层的表空间进行分割; 所述历史数据层采用对象存储持续保存冷数据层超期后的冷数据,数据会从时序数据库上进行迁移并删除,以paruqet形式进行存储。 9.根据权利要求4或7或8所述的一种数组型时序数据跨维度查询方法,其特征在于,所述S3步骤中,采取原始数据后,根据数组型时序数据压缩方法的压缩逻辑变更为时序数据直接入库,由时序数据库进行业务处理后,目前的数据写入模式能够由多进程从MQ批量获取数据,单事务多条数据批量写入,并支持利用连接池提高连接性能,从而降低数据库开销,提升写入时序数据效率。 10.根据权利要求4所述的一种数组型时序数据跨维度查询方法,其特征在于,所述S5步骤中,整体时序数据库按照5秒/次的采集频率,向时序数据库写操作按照11条/秒计算,结果为TPS=250*150/5=7500;依照时序数据库性能报告并参考实际压测报告,部署架构采用支持master-service和replica-service读写分离模式的一主两从流式复制集群;部署架构采用TimescaleDB单机超表方案,分布式超表待功能特性完善后另行扩展;单超表流式复制方案支持连续集合、数据保留、数据分层和数据压缩业务需要的特性;单台PG数据库服务器采用32c/256G以上配置的虚拟机满足时序数据写入的高TPS需要;数据存储热数据满足10天全量采集存储要求,采用SSD存储介质,容量2TB,包括数据库实时的归档存储空间;温数据满足启用压缩机制不少于6个月全量采集的存储要求,容量5.4TB;冷数据采用对象存储服务,满足不少于3年的历史数据和归档存储要求;同时,在做数据还原处理时,提供额外的挂载存储空间,以支持将对象存储的归档日志同步回数据节点上进行还原。
现在,一起体验智慧芽的产品和服务
自动注册,无需人工审核,即可立即开始查询专利
立即注册
澳门正版图库

AI助手