高吞吐量的hdfs流数据写入

r7knjye2 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(469)

我有来自大量传感器（>500）的数据流，我需要将这些数据写入我的hdfs。传感器几乎每1秒发送一次数据，每次推送的数据大小约为300b。问题是，我已经体验到，每当我开始使用append模式在hdfs上推送很多东西时，它就会引发许多异常并陷入困境。我需要找到一种方法来处理每秒大量的写操作，比如采用一个中间层来存储数据，然后慢慢地将它们推入hdfs。我不知道是否有任何数据库将为此工作，如果是的，哪一个是最好的？
更新：我环顾四周，很难理解不同解决方案的局限性和潜力。
显然，像kafka这样的技术可以处理“每秒数千个客户端数百兆字节的读写”。
还有其他一些技术，其中一些建立在Kafka本身的基础上，作为融合，但它如何改进写作对我来说仍然不清楚。
然后，还有其他框架，称为“日志层”（或多或少），提供了这种中间层来管理写操作。大多数广告产品都是fluentd和logstash。
最后，spark作为it流组件spark streaming，它应该以某种方式管理大量数据的流。
现在，我的问题是，是否有人曾经处理过类似的问题，这可能是一个很好的解决我的情况。

hadoop hdfs spark-streaming throughput read-write

来源：https://stackoverflow.com/questions/37945616/streaming-data-writings-on-hdfs-with-high-throughput

1条答案

按热度按时间

vcirk6k61#

我无法帮助您提高hdfs吞吐量，但既然您提到了中间层，我将列出一些与spark结合使用的通常提供高写操作的数据存储（我认为您也在尝试使用spark？）。我怀疑大部分或全部都能写回hdfs。
快照数据
内存SQL
Cassandra
点燃
数据库
redis公司
什么是“最好的”是一个意见的问题，这是普遍不赞成的。不过，通过一些挖掘，你可以找到基准点，而不是什么。

赞(0）回复(0）举报 2021-06-02

我来回答

高吞吐量的hdfs流数据写入

1条答案

相关问题

热门标签

最新问答