配置单元断开管道错误

zbwhf8kr  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(254)

我一直在做一个包含配置单元查询的项目。
插入到覆盖。。。。使用“python script.py”从….转换(..)。。。。左外联接。左外联接。左外连接
一开始一切都很好,直到我们加载了大量的虚拟数据。我们只是在一些字段上写相同的记录。之后,我们再次运行它,得到一个没有太多信息的管道错误。没有关于错误的日志,只有ioexception:断管错误。
为了简化脚本并隔离错误,我们将脚本修改为

for line in sys.stdin.readlines():
    print line

以避免该级别的任何错误。我们仍然有同样的错误。

xcitsw88

xcitsw881#

通过在不同的查询中拆分这么多连接并使用中间表,似乎可以解决这个问题。然后,您只需添加最后一个查询,最后一个连接汇总了以前的所有结果。据我所知,这意味着在脚本级别没有错误,但是配置单元处理的数据太多

pu82cl6c

pu82cl6c2#

另一个解决方法是删除转换并生成一个新的查询,将数据插入另一个刚刚运行转换的表中。我不是100%确定为什么,scrtip是正确的。我认为这个问题可能是一个非常大的数据流,因为这么多的加入。

相关问题