使用python在spark中处理非常大的文档时出现hadoop大小问题

dy2hfwbg  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(316)

我使用python脚本处理了使用spark存储在hdfs中的xml文档。

files = sc.wholeTextFiles("hdfs://xxx/data").collect()

这里/data目录有10000多个xml文档。我必须用spark处理所有的文件。但在我尝试运行时,收到以下错误消息:

WARN TaskSetManager: Stage 0 contains a task of very large size (451 KB). The maximum recommended task size is 100 KB

如何纠正此错误。有人能帮我解决这个问题吗?
提前谢谢。

tct7dpnv

tct7dpnv1#

我现在得到答案了。我已使用以下代码最大化分区: files = sc.wholeTextFiles("hdfs:///data",10).collect()

相关问题