python—如何将传感器数据存储到apache hadoop hdfs、hive、hbase或其他应用程序中

ejk8hzay  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(401)

假设您正在从csv文件中读取数百万个数据行。每行显示传感器名称、当前传感器值和观察该值时的时间戳。

key, value, timestamp
temp_x, 8°C, 10:52am
temp_x, 25°C, 11:02am
temp_x, 30°C, 11:12am

这与这样的信号有关:

所以我想知道什么是将其存储到apachehadoop hdfs中的最佳和最有效的方法。第一个想法是使用bigtable又名hbase。这里,信号名称是行键,而值是一个列组,它随时间保存值。可以向该行键添加更多的列组(例如示例统计)。

另一个想法是使用表格(或类似sql的)结构。但是你要在每一行复制密钥。您必须根据需求计算统计数据,并将它们分别存储(在第二个表中)。

我不知道有没有更好的主意。一旦存储,我想读取python/pyspark中的数据并进行数据分析和机器学习。因此,应该使用模式(sparkrdd)轻松访问数据。

ryhaxcpt

ryhaxcpt1#

我会考虑使用。
使用databricks csv从csv文件加载数据
清除数据
写入qarquet文件(以节省空间和时间)
从Parquet文件加载数据
分析一下
或许可以作为中间结果保存

相关问题