我正在将流媒体应用程序从flume移到kafka。
我刚到Kafka就需要帮助。
我有一台windows机器,在这个机器上,物联网传感器在特定的位置(比如d:/文件夹)不断生成csv文件。
我想把它转移到hadoop集群。
1) 我是否需要一个kafka集群/代理在传输日志文件之间,或者我可以直接从我的windows机器传输到hadoop linux机器?
2) 我可以在windows和hadoop-linux机器上安装kafka,然后直接将csv文件发布到hadoop机器上创建的kafka主题吗。
我将在hadoop机器上运行一个consumer?
2条答案
按热度按时间mqkwyuun1#
在传输日志文件之间是否需要kafka群集/代理
如果你想使用Kafka,那么是的,你需要一个实际的集群。
我可以直接从我的windows机器转移到hadoop linux机器吗?
当然。使用Flume,Spark,Flink,尼菲等,Kafka是没有必要的
我可以在windows和hadoop-linux机器上安装kafka,然后直接将csv文件发布到hadoop机器上创建的kafka主题吗
你不会为制作人客户端安装Kafka。您可以下载这些库并使用它们发布消息。可以在hadoop节点上随意安装kafka,但它们应该真正安装在独立的硬件上
oknrviil2#
使用kafka消费者获取文件并将其放在hdfs上。您需要一个生产者来发送队列中的文件,一个使用者来处理它们。
生产者可以在windows下运行,需要使用kafka客户端api。
使用者必须在hdfs上运行。你需要在你的集群上安装kafka,配置它等等。。。取决于hadoop发行版。