scala—写入配置单元表中的许多文件时出现内存不足问题

r7xajy2e 于 2021-06-26 发布在 Hive

关注(0)|答案(0)|浏览(288)

在循环中向配置单元表写入Dataframe内容时，我们遇到了spark内存不足的问题。
我们使用的代码

df.write.insertInto(hiveTable);

我们有个例外
java.lang.outofmemoryerror:超出gc开销限制。
我们将内存配置为

--executor-memory 10g and num-executors 6

当寻找spark ui应用程序不超过70mb的时候，驱动内存为7到10MB，所有执行器为60mb。
和我有关的东西。
我们已通过更改配置

--conf "spark.hadoop.parquet.enable.summay-metadata=false"

通过这个改变，我们提高了性能，但是当我们增加对同一个配置单元表的写入次数时，它又失败了
我们使用spark submit命令在客户机模式下运行spark应用程序。我们使用Cloudera1.6.0作为spark版本。
请建议

目前还没有任何答案，快来回答吧！

相关问题