文件夹中的流文件

v2g6jxz6  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(335)

我正在将流媒体应用程序从flume移到kafka。
我刚到Kafka就需要帮助。
我有一台windows机器,在这个机器上,物联网传感器在特定的位置(比如d:/文件夹)不断生成csv文件。
我想把它转移到hadoop集群。
1) 我是否需要一个kafka集群/代理在传输日志文件之间,或者我可以直接从我的windows机器传输到hadoop linux机器?
2) 我可以在windows和hadoop-linux机器上安装kafka,然后直接将csv文件发布到hadoop机器上创建的kafka主题吗。
我将在hadoop机器上运行一个consumer?

mqkwyuun

mqkwyuun1#

在传输日志文件之间是否需要kafka群集/代理
如果你想使用Kafka,那么是的,你需要一个实际的集群。
我可以直接从我的windows机器转移到hadoop linux机器吗?
当然。使用Flume,Spark,Flink,尼菲等,Kafka是没有必要的
我可以在windows和hadoop-linux机器上安装kafka,然后直接将csv文件发布到hadoop机器上创建的kafka主题吗
你不会为制作人客户端安装Kafka。您可以下载这些库并使用它们发布消息。可以在hadoop节点上随意安装kafka,但它们应该真正安装在独立的硬件上

oknrviil

oknrviil2#

使用kafka消费者获取文件并将其放在hdfs上。您需要一个生产者来发送队列中的文件,一个使用者来处理它们。
生产者可以在windows下运行,需要使用kafka客户端api。
使用者必须在hdfs上运行。你需要在你的集群上安装kafka,配置它等等。。。取决于hadoop发行版。

相关问题