python—如何将传感器数据存储到apache hadoop hdfs、hive、hbase或其他应用程序中

ejk8hzay 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(401)

假设您正在从csv文件中读取数百万个数据行。每行显示传感器名称、当前传感器值和观察该值时的时间戳。

key, value, timestamp
temp_x, 8°C, 10:52am
temp_x, 25°C, 11:02am
temp_x, 30°C, 11:12am

这与这样的信号有关：

所以我想知道什么是将其存储到apachehadoop hdfs中的最佳和最有效的方法。第一个想法是使用bigtable又名hbase。这里，信号名称是行键，而值是一个列组，它随时间保存值。可以向该行键添加更多的列组（例如示例统计）。

另一个想法是使用表格（或类似sql的）结构。但是你要在每一行复制密钥。您必须根据需求计算统计数据，并将它们分别存储（在第二个表中）。

我不知道有没有更好的主意。一旦存储，我想读取python/pyspark中的数据并进行数据分析和机器学习。因此，应该使用模式（sparkrdd）轻松访问数据。