我有多个文件,是写在块,我希望我的流处理每个文件新的数据每次数据被附加。另外,我希望我的流只读取新文件,而不是已经处理的文件。我们将不胜感激。
wztqucjr1#
不可能作为直接来源。需要使用flume“tail”方法,将该tail作为一个文件放入hdfs目录中,并让spark structured streaming监视该目录。或者你可以用nifi之类的东西。
1条答案
按热度按时间wztqucjr1#
不可能作为直接来源。
需要使用flume“tail”方法,将该tail作为一个文件放入hdfs目录中,并让spark structured streaming监视该目录。
或者你可以用nifi之类的东西。