在spark结构化流媒体中,如何仅从旧文件中流式传输新数据(新添加的)?

bxjv4tth  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(416)

我有多个文件,是写在块,我希望我的流处理每个文件新的数据每次数据被附加。另外,我希望我的流只读取新文件,而不是已经处理的文件。我们将不胜感激。

wztqucjr

wztqucjr1#

不可能作为直接来源。
需要使用flume“tail”方法,将该tail作为一个文件放入hdfs目录中,并让spark structured streaming监视该目录。
或者你可以用nifi之类的东西。

相关问题