spark:如何读取lzo压缩的Parquet文件

zfycwa2u  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(332)

我想读一个Parquet文件压缩lzo算法。让我们假设运行一个spark shell(在基于ec2的spark集群中,使用ec2脚本构建)并将以下代码放入其中:

val hadoopConf = sc.hadoopConfiguration
hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
hadoopConf.set("fs.s3.awsAccessKeyId", "myaccesskey")
hadoopConf.set("fs.s3.awsSecretAccessKey", "mysecretaccesskey")

val parquetFile = spark.read.parquet("s3://path/to/my/parquet/lzo/file")
parquetFile.first()

我收到这个例外:

Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found.

我也遵循了这个指南,但错误仍然是一样的。建议?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题