spark+kafka集成kafka分区到rdd分区的Map

tpgth1q7 于 2021-06-08 发布在 Kafka

关注(0)|答案(1)|浏览(370)

我有几个关于Spark流的基本问题
[请告诉我这些问题是否在其他帖子中得到了回答-我找不到任何答案]：
（i）在spark流中，rdd中的分区数默认等于worker数吗？
（ii）在spark-kafka集成的直接方法中，创建的rdd分区数等于kafka分区数。假设每个rdd分区 i 将Map到同一工作节点 j 在每一批 DStream ? 也就是说，分区到工作节点的Map仅仅基于分区的索引吗？例如，分区2是否可以在一个批中分配给worker 1，在另一个批中分配给worker 3？
提前谢谢

scala apache-kafka apache-spark spark-streaming apache-spark-1.4

来源：https://stackoverflow.com/questions/32873345/spark-kafka-integration-mapping-of-kafka-partitions-to-rdd-partitions