HadoopMapReduce和s3的多个输入文件夹

jmo0nnb3  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(562)

我目前在awss3上有一个bucket,为了简单起见,我们称它为“bucketx”。在bucketx中,有4个文件夹:
数据,文档1,文档2,文档3。
我想在除“data”之外的所有目录上运行hdfs mapreduce作业,使用docs1、docs2和docs3作为输入目录,以及其他一些输出目录。
对于如何在驱动程序中配置这一点,我有点困惑。
我知道

FileInputFormat.addInputPath(job, new Path(args[0]));

存在,但如何具体地手动配置要使用的3个输入路径?任何帮助都将不胜感激。

w6mmgewl

w6mmgewl1#

可以使用通配符-

FileInputFormat.addInputPath(job, new Path("s3://bucketX/docs*"));

相关问题