作为spark性能调整任务的一部分。spark stream应用程序(用java编写)有来自kafka receiver-topic的输入,并将输出推送到其他kafka主题。spark应用程序运行时有13个执行器,每个执行器有3gb内存和4个vCore。kafka主题是用13个分区创建的,复制因子设置为1。spark流应用的必要性是以每秒1500条消息的吞吐量获取和处理消息。但是,我发现并行性并没有在执行者级别发生,我的疑虑和需求是
kafka是否可以将主题中的输入流(一批130条消息)重新分区(拆分)到每个执行器(因此130条消息在13个执行器(jvm)中拆分,即每个执行器10条消息)?
如果完全有可能,如何实现?api的任何引用或方法/类?
我的应用程序的瓶颈是所有13个执行器都在处理所有130条消息(没有发生并行)
暂无答案!
目前还没有任何答案,快来回答吧!