处理多个文件具有大量的数据通过胶水作业使用Pyspark代码

bcs8qyzn  于 11个月前  发布在  Spark
关注(0)|答案(1)|浏览(81)

我有一个场景,我们必须通过胶水作业处理9个文件。目前,我们正在使用Pyspark和阅读所有9个文件到一个单一的框架。文件的大小约为11 GB和管道将进入无限的时间执行,有时它会失败与“没有空间留在设备上”错误。胶水作业详细信息:工人类型:G2X(8vCPU,32GB RAM)工人数量:增加到200.我想知道有什么方法可以有效地处理文件

aiazj4mn

aiazj4mn1#

我首先要检查的是输入文件是否为可拆分格式。

相关问题