在循环中向配置单元表写入Dataframe内容时,我们遇到了spark内存不足的问题。
我们使用的代码
df.write.insertInto(hiveTable);
我们有个例外
java.lang.outofmemoryerror:超出gc开销限制。
我们将内存配置为
--executor-memory 10g and num-executors 6
当寻找spark ui应用程序不超过70mb的时候,驱动内存为7到10MB,所有执行器为60mb。
和我有关的东西。
我们已通过更改配置
--conf "spark.hadoop.parquet.enable.summay-metadata=false"
通过这个改变,我们提高了性能,但是当我们增加对同一个配置单元表的写入次数时,它又失败了
我们使用spark submit命令在客户机模式下运行spark应用程序。我们使用Cloudera1.6.0作为spark版本。
请建议
暂无答案!
目前还没有任何答案,快来回答吧!