在spark中读取压缩的json

ljsrvy3e  于 2021-06-25  发布在  Hive
关注(0)|答案(0)|浏览(425)

我将数据作为utf-8编码的json文件存储在s3中,并使用snappy/lz4进行压缩。我想使用spark来读取/处理这些数据,但是spark似乎需要文件名后缀( .lz4 , .snappy )了解压缩方案。
问题是我无法控制文件的命名方式-它们不会用这个后缀编写。重命名所有这样的文件以包含后缀之类的内容也太昂贵了。
spark有没有办法正确读取这些json文件?对于Parquet编码的文件,有 'parquet.compression' = 'snappy' 在hive metastore中,它似乎解决了Parquet文件的这个问题。文本文件也有类似的功能吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题