spark将多个kafka主题流到多个带有检查点的数据库表

6bc51xsx 于 2021-06-07 发布在 Kafka

关注(0)|答案(0)|浏览(297)

我正在从ApacheKafka构建spark流到我们的专栏数据库。
为了确保容错性，我使用hdfs检查点和写前日志。
apachekafka主题->spark streaming->hdfs checkpoint->spark sql（用于消息操作）->spark jdbc for our db。
当我对一个主题和表使用spark作业时，所有内容都是工作文件。
我尝试在一个spark作业中流式处理多个kafka主题，并在这里为多个表编写检查点问题（每个主题表一个）
问题在于检查点：(
1）如果我将“kafkautils.createdirectstream”与主题列表和“groupby”主题名称一起使用，但检查点文件夹是一个，例如，我需要在正在进行的流媒体期间增加资源（由于kafka滞后而更改cor的数量），这将是不可能的，因为今天只有删除checkpoint文件夹并重新启动spark作业才有可能。
2）使用多个spark streamingcontext我今天将尝试这个，看看它是否有效。
3）具有高级使用者的多个sparkstreaming（kafka10中保存的偏移量…）
我缺少的任何其他想法/解决方案是否具有多个Kafka主题和检查点的结构流表现不同？
谢谢

apache-kafka apache-spark spark-streaming checkpoint

来源：https://stackoverflow.com/questions/47953282/spark-streaming-multiple-kafka-topic-to-multiple-database-table-with-checkpoint

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark将多个kafka主题流到多个带有检查点的数据库表

暂无答案！

相关问题

热门标签

最新问答