我编写了一个代码,其中有三个输入文件:
TWEETS_FN =
DRUGS_FN =
CITIES_FN =
我想使用tweets-100m.csv作为第一个数据输入,tweets\u fn。drug\u sched2.txt,drug\u非法.txt为druges\u fn输入,最后500cities\u tracts.geojson为第三个输入cities\u fn。
我应该使用spark提交作业来运行我的作业:
spark-submit --conf spark.executorEnv.LD_LIBRARY_PATH=$LD_LIBRARY_PATH --executor-cores 5 --num-executors 10 --py-files ... --files
hdfs:///tmp/500cities_tracts.geojson,hdfs:///tmp/drug_sched2.txt,hdfs:///tmp/drug_illegal.txt x.py hdfs:///tmp/tweets-100m.csv
有人能帮助我理解命令的参数吗?我应该如何读取代码文件中的参数?
1条答案
按热度按时间lo8azlld1#
这些参数(或选项)由
spark-submit
命令。您不一定需要在代码中阅读和使用它们。通过运行以下命令,可以找到每个选项的详细信息:spark-submit --help
. 下面是我的机器的输出