scala—写入配置单元表中的许多文件时出现内存不足问题

r7xajy2e  于 2021-06-26  发布在  Hive
关注(0)|答案(0)|浏览(288)

在循环中向配置单元表写入Dataframe内容时,我们遇到了spark内存不足的问题。
我们使用的代码

df.write.insertInto(hiveTable);

我们有个例外
java.lang.outofmemoryerror:超出gc开销限制。
我们将内存配置为

--executor-memory 10g and num-executors 6

当寻找spark ui应用程序不超过70mb的时候,驱动内存为7到10MB,所有执行器为60mb。
和我有关的东西。
我们已通过更改配置

--conf "spark.hadoop.parquet.enable.summay-metadata=false"

通过这个改变,我们提高了性能,但是当我们增加对同一个配置单元表的写入次数时,它又失败了
我们使用spark submit命令在客户机模式下运行spark应用程序。我们使用Cloudera1.6.0作为spark版本。
请建议

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题