我们正在azure上运行一个1 namenode和3 datanode集群。最重要的是,我运行我的Spark纱集群模式的工作。
此外,我们正在使用hdp2.5,它的设置中集成了spark1.6.2。现在我有一个非常奇怪的问题,我的工作处理时间突然增加到4s。
这种情况已经发生了很多次,但没有遵循一个模式,有时4s等待时间是从工作开始,或可能是在工作的中间,如下所示。
需要注意的一点是,我没有处理任何事件,因此从技术上讲,处理时间应该保持几乎相同。另外,我的spark流作业的批处理持续时间是1s,所以不可能是这样。
我没有任何错误的日志或任何地方,我正在失去处理这个问题。
工作的次要细节:
我正在通过kafka主题阅读消息,然后使用phoenix jdbc连接器将它们存储在hbase表中。
编辑:更多信息
在inserttransactionsperrddpartitions中,我正在使用phoenix jdbc连接对hbase执行连接打开和写入操作。
updatedEventLinks.foreachRDD(rdd -> {
if(!rdd.isEmpty()) {
rdd.foreachPartition(new InsertTransactionsPerRDDPartitions(this.prop));
rdd.foreachPartition(new DoSomethingElse(this.kafkaPublishingProps, this.prop));
}
});
暂无答案!
目前还没有任何答案,快来回答吧!