Spark结构化流异步批量阻塞

np8igboo 于 2023-11-21 发布在 Apache

关注(0)|答案(2)|浏览(139)

我正在使用Apache Spark结构化流从Kafka进行阅读。有时候，由于大量的写IO操作，我的微批处理的时间比指定的时间长。我想知道是否可以在第一批处理完成之前开始下一批处理，但让第二批被第一批阻塞？
我的意思是，如果第一个花了7秒，批处理设置为5秒，然后在第五秒开始第二批处理。但是，如果第二批处理完成阻止它，所以它不会写之前，它的前一批（因为将保持正确的消息顺序）。

来源：https://stackoverflow.com/questions/69875953/spark-structured-streaming-asynchronous-batch-blocking

2条答案

按热度按时间

不。下一批只有在上一批完成后才开始。我想你是指学期间隔。否则会变得一团糟。
请访问https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#triggers

赞(0）回复(0）举报 2023-11-21

你可以尝试在单独的线程中运行批处理。但是现在还没有保证传入的批处理资源可用。
在失败的情况下恢复作业也会出现问题（在批处理完成之前检查点流状态）。
显然，没有阻止解决这两个问题的阻断器......但出于某种原因，异步检查点只为Kafka实现

赞(0）回复(0）举报 2023-11-21

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前