我在hdfs中有一组文件,这些文件是tweets。我需要通过Kafka制作人来传输这些推特。稍后,我需要处理流并对其执行一些分析。
我所做的是:
a) 编写一个java程序从hdfs中逐行读取文件。
b) 我可以使用kafka将此消息从java程序发布到主题。
但是,这是一个非常缓慢的方法。而且数据量很大。
我看了一些mapreduce的工作,从中我可以将数据提供给Kafka制作人,我对这一点很陌生,也不太清楚如何做到这一点。
我说的是:https://my-bigdata-blog.blogspot.com/2017/07/hadoop-custom-outputformat-hdfs-send-to-kafka.html
暂无答案!
目前还没有任何答案,快来回答吧!