我有一个spark结构化的流式处理作业,它从cassandra表中读取数据,并与流式数据连接,以执行某些数据处理步骤。作业在单节点机器上运行良好。群集上的同一作业失败,出现异常:
pyspark.sql.utils.streamingqueryexception:在awaitresult中引发了u'异常:\n===流查询===\n标识符
奇怪的行为是,只有在join步骤中添加或条件时,作业才会失败。
例如:df=df.join(dfè2,[(df.eèmac==dfè2.cèid)|(df.wèmac==dfè2.cèid)],“left”)
工作进展顺利
if:df=df.join(df\u 2,df.e\u mac==df\u 2.c\u id,“左”)
注意:它在单节点服务器中运行正常,但在具有pyspark.sql.utils.streamingqueryexception的集群中失败:在awaitresult中引发了u'exception:\n===流查询===\n标识符。
请帮忙修好这个!
暂无答案!
目前还没有任何答案,快来回答吧!