hadoop—从hdfs文件读取数据并将其发送给kafka生产者

ghhaqwfi  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(249)

我在hdfs中有一组文件,这些文件是tweets。我需要通过Kafka制作人来传输这些推特。稍后,我需要处理流并对其执行一些分析。
我所做的是:
a) 编写一个java程序从hdfs中逐行读取文件。
b) 我可以使用kafka将此消息从java程序发布到主题。
但是,这是一个非常缓慢的方法。而且数据量很大。
我看了一些mapreduce的工作,从中我可以将数据提供给Kafka制作人,我对这一点很陌生,也不太清楚如何做到这一点。
我说的是:https://my-bigdata-blog.blogspot.com/2017/07/hadoop-custom-outputformat-hdfs-send-to-kafka.html

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题