使用kafka从hdfs向s3发送10tb大小的大文件

e4yzc0pl  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(432)

我有一个10 TB的hdfs平面文件。我需要将数据写入kafka,然后保存到amazons3中。我正在为这个任务寻找不同的方法。根据之前提出的问题,我知道nifi或spark可以完成。但是,我不清楚如何实施。

wz1wpwve

wz1wpwve1#

@icyanide这是您正在描述的一个非常基本的nifi用例。应该很管用。你也可以用spark来实现,但我个人更喜欢nifi,因为它很容易编程,不需要编写任何代码。


流程2:consumekafka->puts3



有一点警告,10tb的大文件将是一个处理工作量,以获取它、将它复制到s3和/或对内容执行某些操作。使您的nifi节点大规格,集群多个节点,如果你可以,你希望有多个10tb文件并行处理。如果您需要kafka中用于单独下游事件的数据,例如带有s3url的元数据,我会直接转到hdfs->s3->publishkafka(#4)。

相关问题