如何将数据从node red发送到hadoop?

hc8w905p  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(576)

我需要一种机制从节点red发送数据,存储在hdfs(hadoop)中。我更喜欢数据流。我正在考虑使用“websocket out”节点将数据写入其中,并使用flume代理进行读取。
我是个新手。
你能告诉我我是否在正确的方向上,如果我没有,请澄清一些细节吗?任何替代方法也可以。
更新:node red提供了“bluemixhdfs”节点,它专门与ibmbluemix绑定,而我只使用普通的hadoop。

7uhlpewt

7uhlpewt1#

恐怕我不是hadoopMaven,因此可能无法直接提供答案。不过,看起来kafka支持websockets,这应该是合理的性能。
不过,根据您的体系结构,您应该注意websocket的安全性。除非nr和hadoop都在私有安全网络上,否则websockets可能很难正确地进行安全保护。
我认为只要每个事务的数据大小不太大(kb而不是gb),websocket的性能是合理的。不过,您需要做一些测试,因为影响node red性能的因素太多,无法轻松预测它是否具有所需的性能。
node red支持多种类型的连接,因此如果websocket在您的体系结构中不起作用,那么还有很多其他连接,如unix管道、tcp或udp连接。

7rfyedvj

7rfyedvj2#

最近我的一个小项目也遇到了类似的问题。所以我试着解释我的方法。
一点背景知识:在应用程序中,我必须对来自不同数据源的实时流数据进行一些处理。同时,我还需要存储流数据以备将来处理。
我使用apachekafka消息代理作为node red和hdfs(以及apachespark流处理引擎)之间的集成代理。
在node red中,我使用kafka节点将来自不同数据源的流数据发布到kafka中的不同主题。带有流数据源和apache kafka的节点red flow
hdfs sink connector是kafka connect组件,用于将流数据存储到hdfs。使用kafka消息代理的节点red到hdfs和spark流的流体系结构
当许多流数据源(如物联网传感器、股市数据、社交媒体数据、天气api等)要使用节点red作为单个流连接,然后希望使用hdfs存储这些数据以供进一步处理时,也可以采用这种方法。

相关问题