触发器,一旦带有Kafka偏移量的Spark结构化流和写入KAFKA继续

m4pnthwp  于 2022-12-04  发布在  Apache
关注(0)|答案(1)|浏览(161)
  • 使用Spark Structured Streaming和Trigger.Once并处理KAFKA输入时
  • 那么如果运行Trigger.Once调用
  • KAFKA也同时被写入
  • Trigger.Once调用是否会看到在当前调用期间写入的那些较新的KAFKA记录?
  • 还是直到 * 下一次 * 调用Trigger.Once时才能看到它们?
flvlnr44

flvlnr441#

从手册中:它会处理所有内容。请参阅以下内容。
配置增量批处理Apache Spark提供了.trigger(once=True)选项来将所有来自源目录的新数据作为一个微批处理来处理。这个触发器once模式忽略了所有控制流输入大小的设置,这可能会导致大量溢出或内存不足错误。
对于Delta Lake和Auto Loader源,Databricks在Databricks Runtime 10.2及更高版本中支持触发器(availableNow=True)。此功能将一次性触发器的批处理方法与配置批处理大小的能力相结合,从而生成多个并行批处理,为正确调整批处理大小和生成的文件给予更好的控制。

相关问题