HadoopMapReduce和s3的多个输入文件夹

jmo0nnb3 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(561)

我目前在awss3上有一个bucket，为了简单起见，我们称它为“bucketx”。在bucketx中，有4个文件夹：
数据，文档1，文档2，文档3。
我想在除“data”之外的所有目录上运行hdfs mapreduce作业，使用docs1、docs2和docs3作为输入目录，以及其他一些输出目录。
对于如何在驱动程序中配置这一点，我有点困惑。
我知道

FileInputFormat.addInputPath(job, new Path(args[0]));

存在，但如何具体地手动配置要使用的3个输入路径？任何帮助都将不胜感激。

Java hadoop mapreduce amazon-s3 amazon-web-services

来源：https://stackoverflow.com/questions/56043691/multiple-input-folders-for-hadoop-mapreduce-and-s3

1条答案

按热度按时间

w6mmgewl1#

可以使用通配符-

FileInputFormat.addInputPath(job, new Path("s3://bucketX/docs*"));

赞(0）回复(0）举报 2021-05-29

我来回答

HadoopMapReduce和s3的多个输入文件夹

1条答案

相关问题

热门标签

最新问答