我想了解一下:
在spark结构化流媒体中,有一个trigger的概念,它表示spark将在哪个间隔尝试读取数据以开始处理。我想知道的是准备行动能持续多久?特别是在Kafka的背景下,到底发生了什么?比方说,我们已经将spark配置为始终检索最新的偏移量。我想知道的是,spark是否尝试读取每个触发器上的任意数量的数据(比如从上次停止的位置到可用的最新偏移量)?如果准备操作比间隔长怎么办?那时候会发生什么?
我想知道是否有一个准备操作的时间,可以设置,因为在每一个触发器,继续准备这个时间量?或者实际控制的费率是以下两种方式:
手动使用maxoffsetspertrigger,在这种情况下,触发器并不重要,
选择一个触发器,该触发器与您可能有多少可用数据以及能够在触发器之间处理的数据有关。
第二个选项听起来很难校准。
暂无答案!
目前还没有任何答案,快来回答吧!