场景-我有一个主题和两个分区,两个分区具有不同的数据集集合,比如a、b。我知道数据流可以在分区级别和主题级别使用消息。查询我们可以为每个分区使用两个不同的流上下文,还是为整个主题使用一个流上下文,然后过滤分区级别的数据?我担心增加流上下文数量的性能。
b4lqfgs41#
引用文件。简化的并行性:不需要创建多个输入kafka流并合并它们。使用directstream,spark streaming将创建与kafka分区数量相同的rdd分区,这些分区都将并行地从kafka读取数据。所以kafka和rdd分区之间有一对一的Map,这更容易理解和调整。因此,如果您使用的是基于直接流的spark流消费者,那么它应该处理并行性。
1条答案
按热度按时间b4lqfgs41#
引用文件。
简化的并行性:不需要创建多个输入kafka流并合并它们。使用directstream,spark streaming将创建与kafka分区数量相同的rdd分区,这些分区都将并行地从kafka读取数据。所以kafka和rdd分区之间有一对一的Map,这更容易理解和调整。
因此,如果您使用的是基于直接流的spark流消费者,那么它应该处理并行性。