我有一个10 TB的hdfs平面文件。我需要将数据写入kafka,然后保存到amazons3中。我正在为这个任务寻找不同的方法。根据之前提出的问题,我知道nifi或spark可以完成。但是,我不清楚如何实施。
wz1wpwve1#
@icyanide这是您正在描述的一个非常基本的nifi用例。应该很管用。你也可以用spark来实现,但我个人更喜欢nifi,因为它很容易编程,不需要编写任何代码。
流程2:consumekafka->puts3
有一点警告,10tb的大文件将是一个处理工作量,以获取它、将它复制到s3和/或对内容执行某些操作。使您的nifi节点大规格,集群多个节点,如果你可以,你希望有多个10tb文件并行处理。如果您需要kafka中用于单独下游事件的数据,例如带有s3url的元数据,我会直接转到hdfs->s3->publishkafka(#4)。
1条答案
按热度按时间wz1wpwve1#
@icyanide这是您正在描述的一个非常基本的nifi用例。应该很管用。你也可以用spark来实现,但我个人更喜欢nifi,因为它很容易编程,不需要编写任何代码。
流程2:consumekafka->puts3
有一点警告,10tb的大文件将是一个处理工作量,以获取它、将它复制到s3和/或对内容执行某些操作。使您的nifi节点大规格,集群多个节点,如果你可以,你希望有多个10tb文件并行处理。如果您需要kafka中用于单独下游事件的数据,例如带有s3url的元数据,我会直接转到hdfs->s3->publishkafka(#4)。