我正在尝试将lz4压缩与apachespark结合使用,我知道使用常规的 textFile
方法应该足够。然而,如果我加载我的文件解压缩一切工作如预期,但如果我这样做lz4压缩的输出结果是空的。
我想知道这个问题是否与我压缩和解压缩的方式有关。我正在使用java库压缩我的文件https://github.com/jpountz/lz4-java 版本1.3.0(lz4版本123)。但是,在安装了spark workers的机器中,我有其他版本的hadoop本机库。如果我运行命令检查它们,它会显示:
./hadoop checknative -a
15/03/04 05:11:51 WARN bzip2.Bzip2Factory: Failed to load/initialize native-bzip2 library system-native, will use pure-Java version
15/03/04 05:11:51 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
Native library checking:
hadoop: true /opt/hadoop/hadoop-2.4.0/lib/native/libhadoop.so.1.0.0
zlib: true /lib64/libz.so.1
snappy: false
lz4: true revision:99
bzip2: false
然后,我为安装lz4.so库而安装的rpm如下:
http://rpm.pbone.net/index.php3/stat/4/idpl/28577074/dir/redhat_el_6/com/lz4-r127-1.el6.x86_64.rpm.html
如你所见,看起来我有三个不同版本的lz4,但我找不到相同的版本。我的第一个问题是:即使我没有相同的版本,这是否也可以工作?
如果没有,我应该怎么做才能正确配置spark的本机libs来理解lz4压缩文件?
我正在使用spark1.1.0并通过 --driver-library-path
与 spark-submit
.
暂无答案!
目前还没有任何答案,快来回答吧!