pyspark 在EMR群集上设置Spark驱动程序内存

ruoxqz4g  于 2023-08-02  发布在  Spark
关注(0)|答案(1)|浏览(128)

我们有一个电子病历集群。一个团队使用jupyter notebook提交pyspark命令。他们最近提到,spark驱动程序内存没有按照环境变量中的定义正确分配。当我检查spark历史服务器的Executors时,它被设置为3.4 GiB,如下图所示。我检查了EMR集群中的以下文件(/etc/spark/conf/spark_defaults.conf,/etc/jupyter/conf/config. json),并将spark.driver.memory设置为6 g。有什么想法可能是这里的问题吗?
x1c 0d1x的数据

8i9zcol2

8i9zcol21#

如https://spark.apache.org/docs/latest/web-ui.html#executors-tab和https://spark.apache.org/docs/latest/tuning.html#memory-management-overview所述:

The Storage Memory column shows the amount of memory used and reserved for caching data.

字符串
存储内存由spark.memory.storageFraction(默认值为0.5)属性定义。
对于实际的驱动程序内存,您可以在SHS UI中的Environment选项卡下检查spark.driver.memory的值。如果它与spark-defaults.conf中指定的值不同,则客户端可能在创建SparkSession时指定了它。

相关问题