从awss3中提取文件样本并放到s3中的另一个位置

jk9hmnmh  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(321)

使用s3distcp总是可以将一个文件(或一组文件)复制到s3的另一个位置,但是使用mapred或hadoop/emr的任何其他功能是否可以将文件的随机样本(或每n行)复制到s3的新位置。关键是节省将数据复制到本地机器并再次上传到s3的时间。
下面是我想用这个过程优化的耗时代码。

aws s3 cp s3://... localLocation
cat localLocation | awk '{if(NR%10==0) print $0' > samp.txt
aws s3 cp samp.txt s3://..anotherLocation
x7yiwoj4

x7yiwoj41#

从amazons3检索文件时,必须下载整个文件。不支持随机访问。

相关问题