我使用python脚本处理了使用spark存储在hdfs中的xml文档。
files = sc.wholeTextFiles("hdfs://xxx/data").collect()
这里/data目录有10000多个xml文档。我必须用spark处理所有的文件。但在我尝试运行时,收到以下错误消息:
WARN TaskSetManager: Stage 0 contains a task of very large size (451 KB). The maximum recommended task size is 100 KB
如何纠正此错误。有人能帮我解决这个问题吗?
提前谢谢。
1条答案
按热度按时间tct7dpnv1#
我现在得到答案了。我已使用以下代码最大化分区:
files = sc.wholeTextFiles("hdfs:///data",10).collect()