我试图从包含许多子目录的目录中读取文件。数据在s3中,我正在尝试这样做:
val rdd =sc.newAPIHadoopFile(data_loc,
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.io.NullWritable])
这似乎不起作用。
感谢你的帮助
2条答案
按热度按时间nhhxz33t1#
是的,它可以工作,但是需要一段时间来获得单个块/分割,基本上每个子目录中都有一个特定的目录:
s3n://bucket/root_dir/*/data/*/*/*
kqhtkvqz2#
好的,试试这个: