独立程序可以使用aws客户机jar文件在没有hadoop的情况下读/写awss3文件。spark程序可以在没有hadoop的情况下读/写文件。然而spark需要读/写awss3文件的程序来使用hadoop。即便如此,spark1.4和hadoop2.6&2.7仍然存在运行时错误,即即使设置了hadoop目录,也会丢失hadoop的s3类。
spark程序有没有办法不使用hadoop,通过aws客户机jar文件来读/写s3文件?
如果没有,我如何解决spark在运行时丢失hadoop的s3类的问题?
1条答案
按热度按时间368yc8dk1#
spark使用hadoop类来读取s3,但它不需要安装hadoop(我们使用的是为hadoop2.4版本预先构建的)。一定要用
s3n://
前缀