我需要在我们的job.conf文件中外部化Spark Configs,以便可以从外部位置读取它们,并且只在运行时使用的外部位置修改它们。
配置,例如spark.executor.memory
spark.executor.cores
spark.executor.instances
spark.sql.adaptive.enabled
spark.sql.legacy.timeParserPolicy
会存储在这个文件里。
我是个新手,在网上找到的处理这个过程的资源非常有限,我在YouTube上看到过一些关于使用scala文件来处理这个问题的文章,任何帮助都将非常感谢。
我尝试过模拟我在网上看到的scala例子,但不知道如何从Spark调用结果文件(或者即使scala一开始是正确的)。
1条答案
按热度按时间zwghvu4y1#
靶病变;DR:
$SPARK_HOME/conf/spark-defaults.conf
中spark-submit
或其他工具显式提交作业,则还可以使用--conf
在命令行上传递它们。Spark的配置文档还有待改进。
如“动态加载Spark特性”部分所述:
bin/spark-submit还会从
conf/spark-defaults.conf
中读取配置选项,其中每行包含一个键和一个值,用空格分隔。官方文档没有明确提到这个位置,除了在与hadoop config相关的帕拉中提到。
Some IBM doc has it更明确地表示。
另供参考:如何从pyspark设置Hadoop配置值