hbase—使用sap hana和hadoop/hdfs的传感器数据

bd1hkmkf 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(507)

我想保存在一个合适的数据库传感器数据。我每分钟写100.000次，每次写100字节。我也想对数据进行分析。
我考虑过hadoop，因为它有许多不同的框架来分析数据
现在我的问题是：hbase一个nosql数据库将是合适的解决方案，因为它有一个访问大型列的列族数据模型。但它运行在hdfs之上。hdfs有64 mb大小的数据块。如果我有100字节的数据，这对我意味着什么？我也想在hadoop上运行机器学习。是否可以同时使用hbase和sap hana？（sap hana与hadoop一起运行）

hadoop hbase hdfs sap

来源：https://stackoverflow.com/questions/41318058/sensor-data-with-sap-hana-and-hadoop-hdfs

1条答案

按热度按时间

ilmyapht1#

让我试着一步一步地向你们阐述以下几点：
我想保存在一个合适的数据库传感器数据。
我建议在hbase上运行类似opentsdb的东西，因为您也希望运行hadoop集群。
我每分钟写100.000次，每次写100字节。
正如您正确指出的，小型消息/文件是hdfs的一个问题。但对于hbase就不是这样了（块大小是由hbase抽象出来的，不需要为底层hdfs调整它）。
像opentsdb on hbase或pure hbase这样的解决方案可以很好地处理这个负载。
这就是说，由于您显然希望通过hbase和sap hana访问数据（这可能需要将许多100字节文件中的测量值聚合到更大的文件中，因为现在hdfs块大小起作用了），因此我建议先通过kafka处理传入的数据，然后从kafka读取原始hdfs（以某种方式兼容）通过kafka上的独立消费者使用hana）和hbase。
是否可以同时使用hbase和sap hana？
参见上面的解释，在我看来，kafka（或类似的分布式队列）将是从一个小消息流中摄取到多个存储中所需要的。
hdfs有64 mb大小的数据块。如果我有100字节的数据，这对我意味着什么？
对hbase不重要。
对kafka来说并不重要（至少你的吞吐量和消息大小没有关系：）
原始hdfs存储将需要您手动将这些100字节的消息聚合到更大的文件中（这里也许avro会对您有所帮助）
我也想在hadoop上运行机器学习。
这不是问题，hdfs是一个分布式系统，因此您可以将其扩展到更高的性能，并添加一个基于spark的机器学习解决方案或任何其他您想在hadoop上运行的东西。在最坏的情况下，您将不得不向集群中添加另一台机器，但是一旦数据存储在hdfs中并且集群足够强大，您就可以在数据上同时运行的东西的数量没有硬限制。

赞(0）回复(0）举报 2021-05-29

我来回答

hbase—使用sap hana和hadoop/hdfs的传感器数据

1条答案

相关问题

热门标签

最新问答