scala 外部化Spark配置

x33g5p2x  于 2023-03-18  发布在  Scala
关注(0)|答案(1)|浏览(153)

我需要在我们的job.conf文件中外部化Spark Configs,以便可以从外部位置读取它们,并且只在运行时使用的外部位置修改它们。
配置,例如spark.executor.memoryspark.executor.coresspark.executor.instancesspark.sql.adaptive.enabledspark.sql.legacy.timeParserPolicy
会存储在这个文件里。
我是个新手,在网上找到的处理这个过程的资源非常有限,我在YouTube上看到过一些关于使用scala文件来处理这个问题的文章,任何帮助都将非常感谢。
我尝试过模拟我在网上看到的scala例子,但不知道如何从Spark调用结果文件(或者即使scala一开始是正确的)。

zwghvu4y

zwghvu4y1#

靶病变;DR:

  • 你可以把你的配置放在$SPARK_HOME/conf/spark-defaults.conf
  • 或者,如果您使用spark-submit或其他工具显式提交作业,则还可以使用--conf在命令行上传递它们。

Spark的配置文档还有待改进。
如“动态加载Spark特性”部分所述:
bin/spark-submit还会从conf/spark-defaults.conf中读取配置选项,其中每行包含一个键和一个值,用空格分隔。

spark.master            spark://5.6.7.8:7077
spark.executor.memory   4g
spark.eventLog.enabled  true
spark.serializer        org.apache.spark.serializer.KryoSerializer

官方文档没有明确提到这个位置,除了在与hadoop config相关的帕拉中提到。
Some IBM doc has it更明确地表示。
另供参考:如何从pyspark设置Hadoop配置值

相关问题