我有一个场景,我们必须通过胶水作业处理9个文件。目前,我们正在使用Pyspark和阅读所有9个文件到一个单一的框架。文件的大小约为11 GB和管道将进入无限的时间执行,有时它会失败与“没有空间留在设备上”错误。胶水作业详细信息:工人类型:G2X(8vCPU,32GB RAM)工人数量:增加到200.我想知道有什么方法可以有效地处理文件
aiazj4mn1#
我首先要检查的是输入文件是否为可拆分格式。
1条答案
按热度按时间aiazj4mn1#
我首先要检查的是输入文件是否为可拆分格式。