传感器时间序列数据库w/度量摘要?

pw9qyyiw  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(404)

我有4个传感器,每小时事件计数和定期指标。传感器记录5小时/天,512采样率~280mb/天(每周一次~500mb)。事件计数是4个不同的浮点数,表示该小时内发生的事件。指标是定期进行的各种评估(2-5倍/天)。数据每天接收一次,因此插入很少。
操作/转换
信号处理
去除伪影
光谱分解
相关性
统计(均值、标准差、峰度、偏斜、分布等)
事件/指标
随时间推移
不同时间尺度的统计数据
聚类/分组
带信号的事件/度量相关性
事件中的信号是什么样的?活动前/后?在类似的事件中?
当我们围绕事件或指标调整时间序列时,是否存在模式或趋势?
这些关系如何随着时间的推移而演变?
一般异常检测
大多数信号处理是固定的,但原始数据需要与摘要一起保存,即存储原始数据、存储伪影时间帧(以及发生的伪影类型)和光谱(5个不同的窗口,因此有5个额外的时间序列,但这最多是4个样本/秒,最多每分钟一个样本)。事件和度量可以作为元数据存储,甚至可以存储在另一个数据库中,因为它要小得多。
数据目前存放在hdf5存储区中,带有一堆python Package 器,以简化查询。查询的速度每天都在变慢,在一个月的数据收集之后,跨所有时间运行窗口转换(整个数据库的30秒窗口,非常常见的操作)需要10分钟。经过一年的收集,这将是2小时。2年数据4小时等。
我可以访问aws,我有一些数据库的经验(sql,cassandra,mongodb),但我愿意学习w/e tool/db最适合我的用例。我擅长python,shell脚本,并且有一些c++/cudaxp。我提到的大多数操作都是高度可并行的,所以我在想spark w/hdfs/cassandra、redshift等等,我不太确定。

2guxujil

2guxujil1#

Spark

apachespark使用最先进的dag调度器、查询优化器和物理执行引擎,实现了批处理和流式数据的高性能。
sparksql允许您使用sql或熟悉的dataframeapi查询spark程序中的结构化数据。在java、scala、python和r中可用。
sparksql支持hiveql语法以及配置单元serdes和udf,允许您访问现有的配置单元仓库。

高密度光纤

hdfs是hadoop框架的主要部分,它负责hadoop集群中的所有数据。它工作在主/从结构上,并使用复制存储数据。

Hive

hive是一个数据仓库软件,允许用户快速轻松地编写类似sql的查询,从hadoop中提取数据。
虽然hadoop具有很强的可伸缩性、可靠性和数据提取能力,但它的学习曲线过于陡峭,不利于提高成本效益和时间效益。另一个很好的替代方案是mapreduce之上的apache hive。
或者你可以把它们结合起来作为你服务的一个生态系统。

相关问题