我有csv文件 lzo 格式 HDFS 我想将这些文件加载到s3,然后再加载到snowflake,因为snowflake不提供csv文件格式的lzo压缩,所以我需要在将这些文件加载到s3时动态转换它。
lzo
HDFS
ccgok5k51#
您可以考虑使用lambda函数在登录s3时解压缩文件,下面是一个链接:https://medium.com/@johnpaulhayes/how-extract-a-huge-zip-file-in-an-amazon-s3-bucket-by-using-aws-lambda-and-python-e32c6cf58f06
a14dhokn2#
这个答案帮助我从 .lzo_deflate 要获得所需的雪花兼容输出格式:
.lzo_deflate
hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \ -Dmapred.output.compress=true \ -Dmapred.compress.map.output=true \ -Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \ -Dmapred.reduce.tasks=0 \ -input <input-path> \ -output $OUTPUT \ -mapper "cut -f 2"
2条答案
按热度按时间ccgok5k51#
您可以考虑使用lambda函数在登录s3时解压缩文件,下面是一个链接:
https://medium.com/@johnpaulhayes/how-extract-a-huge-zip-file-in-an-amazon-s3-bucket-by-using-aws-lambda-and-python-e32c6cf58f06
a14dhokn2#
这个答案帮助我从
.lzo_deflate
要获得所需的雪花兼容输出格式: