我尝试在aws上使用spark,使用driver/executor模型。似乎没有办法设置驱动程序类路径,以便它可以使用hadoop aws jar和aws sdk jar访问s3。我想把我的工作从s3中拉出来。
似乎我要么需要将所有这些类添加到spark程序集jar,要么需要修改spark类脚本将这些jar手动添加到类路径?
有没有什么侵入性更小的方法,比如说,有没有什么方法可以在config中指定?
我正在运行1.6.1和hadoop2.4,但我希望我也可以使用2.6(同样的问题)。
我尝试在aws上使用spark,使用driver/executor模型。似乎没有办法设置驱动程序类路径,以便它可以使用hadoop aws jar和aws sdk jar访问s3。我想把我的工作从s3中拉出来。
似乎我要么需要将所有这些类添加到spark程序集jar,要么需要修改spark类脚本将这些jar手动添加到类路径?
有没有什么侵入性更小的方法,比如说,有没有什么方法可以在config中指定?
我正在运行1.6.1和hadoop2.4,但我希望我也可以使用2.6(同样的问题)。
1条答案
按热度按时间xbp102n01#
不确定我是否理解正确,但你应该能够设置
spark.driver.extraClassPath
和/或spark.driver.extraLibraryPath
文件上的财产同样的事情也应该通过指定
--jars
使用时的命令行选项spark-submit
,请参阅的帮助输出spark-submit
.