对于数据摄取,我想使用flume并将其放在边缘节点(在集群外部的安全dmz中)或某个工作节点上。在哪里放置它有最佳实践吗?每种方法的优点/缺点是什么?
ocebsuys1#
worker节点(即datanode)上的flume有一个问题。使用hdfs时,如果客户机在datanode上运行,则在写入数据时,数据的第一个副本总是写入本地datanode。因此,如果您有许多datanode,而flume只在其中的几个节点上运行,那么这些datanode将比其他节点占用更多的空间。这实际上取决于您计划用flume编写多少数据,以及这是否是一个问题,还取决于您是否在写入数据之后对其进行处理。在边缘节点上安装flume也可能有很好的防火墙/安全原因-这实际上取决于您的需求。
1条答案
按热度按时间ocebsuys1#
worker节点(即datanode)上的flume有一个问题。使用hdfs时,如果客户机在datanode上运行,则在写入数据时,数据的第一个副本总是写入本地datanode。
因此,如果您有许多datanode,而flume只在其中的几个节点上运行,那么这些datanode将比其他节点占用更多的空间。这实际上取决于您计划用flume编写多少数据,以及这是否是一个问题,还取决于您是否在写入数据之后对其进行处理。
在边缘节点上安装flume也可能有很好的防火墙/安全原因-这实际上取决于您的需求。