s3distcp能否将spark应用程序输出的存储为.snappy.parquet的多个文件合并到一个文件中,并使生成的文件能够被hive读取?
x6yk4ghg1#
我还试图将较小的snappyParquet文件合并到较大的snappyParquet文件中。使用的aws emr add steps--cluster id{clusterid}--步骤file://filename.json and aws emr等待步骤完成--群集id{clusterid}--步骤id{stepid}命令运行得很好,但是当我尝试使用Parquet工具读回合并文件时,由于java.io.eofexception,读取失败。联系aws支持团队。他们说他们在Parquet文件上使用s3distcp时有一个已知问题,他们正在进行修复,但没有修复的eta。
1条答案
按热度按时间x6yk4ghg1#
我还试图将较小的snappyParquet文件合并到较大的snappyParquet文件中。使用的aws emr add steps--cluster id{clusterid}--步骤file://filename.json and aws emr等待步骤完成--群集id{clusterid}--步骤id{stepid}
命令运行得很好,但是当我尝试使用Parquet工具读回合并文件时,由于java.io.eofexception,读取失败。
联系aws支持团队。他们说他们在Parquet文件上使用s3distcp时有一个已知问题,他们正在进行修复,但没有修复的eta。