oozie工作流抛出套接字错误,但在10分钟后提交工作流两次

6mw9ycah  于 2021-05-27  发布在  Hadoop
关注(0)|答案(2)|浏览(410)

我面临着一个非常奇怪的问题。我有一个工作流xml,它包含20个fork-join节点,每个节点包含4-8个操作。当我提交这个工作流时,它会等待5-6分钟,然后抛出

"Error: IO_ERROR : java.net.SocketException: Connection reset"

但实际上,在后台发生的是它在10分钟后提交一个工作流&在12分钟后提交另一个工作流。所以它会触发两次。
我尝试验证我的xml&它返回“ok”。由于它没有返回工作流,我无法进行调试。老实说,我甚至不知道从哪里开始调试。
我有类似的工作流程与小叉子(6),他们都工作得很好。但不知道为什么这个会引起所有的麻烦。

lbsnaicq

lbsnaicq1#

这些日志没有提供任何有意义的信息。所以我把我的工作流程文件分成两个XML。我从第一个工作流的最后一个动作调用了第二个工作流。它运行良好,没有任何问题。

kokeuurv

kokeuurv2#

上面的错误看起来更像是客户端的错误。我认为最好改为检查服务器日志。

oozie job -oozie http://localhost:11000 -info <wfid>
oozie job -oozie http://localhost:11000 -log <wfid>

也可能是您使用了无效的oozie url。例如,如果集群已kerberized,则必须使用与kerberos主体匹配的oozie url。如果您是在kerberized环境中运行,请尝试使用principle和keytab进行kinit( kinit user_principle -k -t key_tab )然后在命令中使用fqn和oozie服务器名,如下所示

oozie job -oozie http://node_name@domain:11000/oozie -config xxxx -run

相关问题