我正在从ApacheKafka构建spark流到我们的专栏数据库。
为了确保容错性,我使用hdfs检查点和写前日志。
apachekafka主题->spark streaming->hdfs checkpoint->spark sql(用于消息操作)->spark jdbc for our db。
当我对一个主题和表使用spark作业时,所有内容都是工作文件。
我尝试在一个spark作业中流式处理多个kafka主题,并在这里为多个表编写检查点问题(每个主题表一个)
问题在于检查点:(
1) 如果我将“kafkautils.createdirectstream”与主题列表和“groupby”主题名称一起使用,但检查点文件夹是一个,例如,我需要在正在进行的流媒体期间增加资源(由于kafka滞后而更改cor的数量),这将是不可能的,因为今天只有删除checkpoint文件夹并重新启动spark作业才有可能。
2) 使用多个spark streamingcontext我今天将尝试这个,看看它是否有效。
3) 具有高级使用者的多个sparkstreaming(kafka10中保存的偏移量…)
我缺少的任何其他想法/解决方案是否具有多个Kafka主题和检查点的结构流表现不同?
谢谢
暂无答案!
目前还没有任何答案,快来回答吧!