在spark中读取压缩的json

ljsrvy3e 于 2021-06-25 发布在 Hive

关注(0)|答案(0)|浏览(425)

我将数据作为utf-8编码的json文件存储在s3中，并使用snappy/lz4进行压缩。我想使用spark来读取/处理这些数据，但是spark似乎需要文件名后缀( .lz4 , .snappy )了解压缩方案。
问题是我无法控制文件的命名方式-它们不会用这个后缀编写。重命名所有这样的文件以包含后缀之类的内容也太昂贵了。
spark有没有办法正确读取这些json文件？对于Parquet编码的文件，有 'parquet.compression' = 'snappy' 在hive metastore中，它似乎解决了Parquet文件的这个问题。文本文件也有类似的功能吗？

Hive apache-spark pyspark hive-metastore

来源：https://stackoverflow.com/questions/58492700/read-compressed-json-in-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在spark中读取压缩的json

暂无答案！

相关问题

热门标签

最新问答