s3distcp可以合并.snappy.paruqet文件吗？

2ic8powd 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(253)

s3distcp能否将spark应用程序输出的存储为.snappy.parquet的多个文件合并到一个文件中，并使生成的文件能够被hive读取？

Hive apache-spark emr

来源：https://stackoverflow.com/questions/44320150/can-s3distcp-combine-snappy-paruqet-files

1条答案

按热度按时间

x6yk4ghg1#

我还试图将较小的snappyParquet文件合并到较大的snappyParquet文件中。使用的aws emr add steps--cluster id{clusterid}--步骤file://filename.json and aws emr等待步骤完成--群集id{clusterid}--步骤id{stepid}
命令运行得很好，但是当我尝试使用Parquet工具读回合并文件时，由于java.io.eofexception，读取失败。
联系aws支持团队。他们说他们在Parquet文件上使用s3distcp时有一个已知问题，他们正在进行修复，但没有修复的eta。

赞(0）回复(0）举报 2021-06-26

我来回答

s3distcp可以合并.snappy.paruqet文件吗？

1条答案

相关问题

热门标签

最新问答