我们有一个电子病历集群。一个团队使用jupyter notebook提交pyspark命令。他们最近提到,spark驱动程序内存没有按照环境变量中的定义正确分配。当我检查spark历史服务器的Executors时,它被设置为3.4 GiB,如下图所示。我检查了EMR集群中的以下文件(/etc/spark/conf/spark_defaults.conf,/etc/jupyter/conf/config. json),并将spark.driver.memory
设置为6 g。有什么想法可能是这里的问题吗?
x1c 0d1x的数据
1条答案
按热度按时间8i9zcol21#
如https://spark.apache.org/docs/latest/web-ui.html#executors-tab和https://spark.apache.org/docs/latest/tuning.html#memory-management-overview所述:
字符串
存储内存由
spark.memory.storageFraction
(默认值为0.5)属性定义。对于实际的驱动程序内存,您可以在SHS UI中的
Environment
选项卡下检查spark.driver.memory
的值。如果它与spark-defaults.conf
中指定的值不同,则客户端可能在创建SparkSession时指定了它。