s3distcp可以合并.snappy.paruqet文件吗?

2ic8powd  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(253)

s3distcp能否将spark应用程序输出的存储为.snappy.parquet的多个文件合并到一个文件中,并使生成的文件能够被hive读取?

x6yk4ghg

x6yk4ghg1#

我还试图将较小的snappyParquet文件合并到较大的snappyParquet文件中。使用的aws emr add steps--cluster id{clusterid}--步骤file://filename.json and aws emr等待步骤完成--群集id{clusterid}--步骤id{stepid}
命令运行得很好,但是当我尝试使用Parquet工具读回合并文件时,由于java.io.eofexception,读取失败。
联系aws支持团队。他们说他们在Parquet文件上使用s3distcp时有一个已知问题,他们正在进行修复,但没有修复的eta。

相关问题