我在hdfs中有lz4压缩数据,我正试图在apachespark中将其解压到rdd中。据我所知 JavaSparkContext 从hdfs读取数据 textFile 它只读取hdfs中的数据。我在网上看到过一些文章 CompressionCodec 但它们都解释了如何将输出压缩到hdfs,而我需要解压缩hdfs上已经存在的内容。我是新的Spark,所以我提前道歉,如果我错过了一些明显的或如果我的概念理解是不正确的,但如果有人能给我指出正确的方向,这将是伟大的。
JavaSparkContext
textFile
CompressionCodec
6bc51xsx1#
spark 1.1.0支持通过 sc.textFile . 我使用了spark,它是用支持lz4的hadoop构建的(在我的例子中是2.4.1)之后,我为我的平台构建了hadoop文档中描述的本机库,并将它们链接到spark via --driver-library-path 选项。没有链接,就有 native lz4 library not loaded 例外情况。根据hadoop发行版的不同,构建本机库的步骤可能是可选的。
sc.textFile
--driver-library-path
native lz4 library not loaded
1条答案
按热度按时间6bc51xsx1#
spark 1.1.0支持通过
sc.textFile
. 我使用了spark,它是用支持lz4的hadoop构建的(在我的例子中是2.4.1)之后,我为我的平台构建了hadoop文档中描述的本机库,并将它们链接到spark via
--driver-library-path
选项。没有链接,就有
native lz4 library not loaded
例外情况。根据hadoop发行版的不同,构建本机库的步骤可能是可选的。