在spark中解压缩lz4压缩数据

2j4z5cfb  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(629)

我在hdfs中有lz4压缩数据,我正试图在apachespark中将其解压到rdd中。据我所知 JavaSparkContext 从hdfs读取数据 textFile 它只读取hdfs中的数据。我在网上看到过一些文章 CompressionCodec 但它们都解释了如何将输出压缩到hdfs,而我需要解压缩hdfs上已经存在的内容。
我是新的Spark,所以我提前道歉,如果我错过了一些明显的或如果我的概念理解是不正确的,但如果有人能给我指出正确的方向,这将是伟大的。

6bc51xsx

6bc51xsx1#

spark 1.1.0支持通过 sc.textFile . 我使用了spark,它是用支持lz4的hadoop构建的(在我的例子中是2.4.1)
之后,我为我的平台构建了hadoop文档中描述的本机库,并将它们链接到spark via --driver-library-path 选项。
没有链接,就有 native lz4 library not loaded 例外情况。
根据hadoop发行版的不同,构建本机库的步骤可能是可选的。

相关问题