高吞吐量的hdfs流数据写入

r7knjye2  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(468)

我有来自大量传感器(>500)的数据流,我需要将这些数据写入我的hdfs。传感器几乎每1秒发送一次数据,每次推送的数据大小约为300b。问题是,我已经体验到,每当我开始使用append模式在hdfs上推送很多东西时,它就会引发许多异常并陷入困境。我需要找到一种方法来处理每秒大量的写操作,比如采用一个中间层来存储数据,然后慢慢地将它们推入hdfs。我不知道是否有任何数据库将为此工作,如果是的,哪一个是最好的?
更新:我环顾四周,很难理解不同解决方案的局限性和潜力。
显然,像kafka这样的技术可以处理“每秒数千个客户端数百兆字节的读写”。
还有其他一些技术,其中一些建立在Kafka本身的基础上,作为融合,但它如何改进写作对我来说仍然不清楚。
然后,还有其他框架,称为“日志层”(或多或少),提供了这种中间层来管理写操作。大多数广告产品都是fluentd和logstash。
最后,spark作为it流组件spark streaming,它应该以某种方式管理大量数据的流。
现在,我的问题是,是否有人曾经处理过类似的问题,这可能是一个很好的解决我的情况。

vcirk6k6

vcirk6k61#

我无法帮助您提高hdfs吞吐量,但既然您提到了中间层,我将列出一些与spark结合使用的通常提供高写操作的数据存储(我认为您也在尝试使用spark?)。我怀疑大部分或全部都能写回hdfs。
快照数据
内存SQL
Cassandra
点燃
数据库
redis公司
什么是“最好的”是一个意见的问题,这是普遍不赞成的。不过,通过一些挖掘,你可以找到基准点,而不是什么。

相关问题