在spark结构化流媒体中，如何仅从旧文件中流式传输新数据(新添加的)？

bxjv4tth 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(417)

我有多个文件，是写在块，我希望我的流处理每个文件新的数据每次数据被附加。另外，我希望我的流只读取新文件，而不是已经处理的文件。我们将不胜感激。

apache-spark spark-structured-streaming spark-streaming

来源：https://stackoverflow.com/questions/63292490/how-to-stream-only-new-data-newly-appended-from-old-file-in-spark-structured-s

1条答案

按热度按时间

不可能作为直接来源。
需要使用flume“tail”方法，将该tail作为一个文件放入hdfs目录中，并让spark structured streaming监视该目录。
或者你可以用nifi之类的东西。

赞(0）回复(0）举报 2021-05-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 2个月前