传感器时间序列数据库w/度量摘要？

pw9qyyiw 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(405)

我有4个传感器，每小时事件计数和定期指标。传感器记录5小时/天，512采样率~280mb/天（每周一次~500mb）。事件计数是4个不同的浮点数，表示该小时内发生的事件。指标是定期进行的各种评估（2-5倍/天）。数据每天接收一次，因此插入很少。
操作/转换
信号处理
去除伪影
光谱分解
相关性
统计（均值、标准差、峰度、偏斜、分布等）
事件/指标
随时间推移
不同时间尺度的统计数据
聚类/分组
带信号的事件/度量相关性
事件中的信号是什么样的？活动前/后？在类似的事件中？
当我们围绕事件或指标调整时间序列时，是否存在模式或趋势？
这些关系如何随着时间的推移而演变？
一般异常检测
大多数信号处理是固定的，但原始数据需要与摘要一起保存，即存储原始数据、存储伪影时间帧（以及发生的伪影类型）和光谱（5个不同的窗口，因此有5个额外的时间序列，但这最多是4个样本/秒，最多每分钟一个样本）。事件和度量可以作为元数据存储，甚至可以存储在另一个数据库中，因为它要小得多。
数据目前存放在hdf5存储区中，带有一堆python Package 器，以简化查询。查询的速度每天都在变慢，在一个月的数据收集之后，跨所有时间运行窗口转换（整个数据库的30秒窗口，非常常见的操作）需要10分钟。经过一年的收集，这将是2小时。2年数据4小时等。
我可以访问aws，我有一些数据库的经验（sql，cassandra，mongodb），但我愿意学习w/e tool/db最适合我的用例。我擅长python，shell脚本，并且有一些c++/cudaxp。我提到的大多数操作都是高度可并行的，所以我在想spark w/hdfs/cassandra、redshift等等，我不太确定。

apache-spark Database time-series distributed-computing

来源：https://stackoverflow.com/questions/63066750/database-for-sensor-time-series-w-metric-summaries

1条答案

按热度按时间

2guxujil1#

Spark

apachespark使用最先进的dag调度器、查询优化器和物理执行引擎，实现了批处理和流式数据的高性能。
sparksql允许您使用sql或熟悉的dataframeapi查询spark程序中的结构化数据。在java、scala、python和r中可用。
sparksql支持hiveql语法以及配置单元serdes和udf，允许您访问现有的配置单元仓库。

高密度光纤

hdfs是hadoop框架的主要部分，它负责hadoop集群中的所有数据。它工作在主/从结构上，并使用复制存储数据。

Hive

hive是一个数据仓库软件，允许用户快速轻松地编写类似sql的查询，从hadoop中提取数据。
虽然hadoop具有很强的可伸缩性、可靠性和数据提取能力，但它的学习曲线过于陡峭，不利于提高成本效益和时间效益。另一个很好的替代方案是mapreduce之上的apache hive。
或者你可以把它们结合起来作为你服务的一个生态系统。

赞(0）回复(0）举报 2021-05-27

我来回答

传感器时间序列数据库w/度量摘要？

1条答案

Spark

高密度光纤

Hive

相关问题

热门标签

最新问答