使用python在spark中处理非常大的文档时出现hadoop大小问题

dy2hfwbg 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(316)

我使用python脚本处理了使用spark存储在hdfs中的xml文档。

files = sc.wholeTextFiles("hdfs://xxx/data").collect()

这里/data目录有10000多个xml文档。我必须用spark处理所有的文件。但在我尝试运行时，收到以下错误消息：

WARN TaskSetManager: Stage 0 contains a task of very large size (451 KB). The maximum recommended task size is 100 KB

如何纠正此错误。有人能帮我解决这个问题吗？
提前谢谢。

1条答案

我现在得到答案了。我已使用以下代码最大化分区： files = sc.wholeTextFiles("hdfs:///data",10).collect()