我将数据作为utf-8编码的json文件存储在s3中,并使用snappy/lz4进行压缩。我想使用spark来读取/处理这些数据,但是spark似乎需要文件名后缀( .lz4
, .snappy
)了解压缩方案。
问题是我无法控制文件的命名方式-它们不会用这个后缀编写。重命名所有这样的文件以包含后缀之类的内容也太昂贵了。
spark有没有办法正确读取这些json文件?对于Parquet编码的文件,有 'parquet.compression' = 'snappy'
在hive metastore中,它似乎解决了Parquet文件的这个问题。文本文件也有类似的功能吗?
暂无答案!
目前还没有任何答案,快来回答吧!