一个非常重要的源代码可以选择s3 bucket中的一个子集来处理吗?

mfuanj7w  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(211)

我有一个烫手的工作,在一个特定的时间戳s3桶操作所有的文件。看起来是这样的: JsonLine("s3://path/to/timestampedbuckets/2016-02-03/", ('key1, 'key2)).read 我想改变作业,一次操作几个时间戳存储桶中的文件。例如,为了在2015年和2016年对所有文件进行操作,我想这样做: JsonLine("s3://path/to/timestampedbuckets/201[56]-*", ('key1, 'key2)).read 或者,更一般地说,这是:

def shouldProcess(path: String): Boolean = {...}
ChoosyJsonLine("s3://path/to/timestampedbuckets/", filepath => shouldProcess(filepath), ('key1, 'key2)).read

那么,对于一个非常重要的作业来说,是否有可能只选择性地处理inputs3 bucket中的一些文件呢?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题