hadoop sequencefile和textfile之间没有大小差异?

lsmepo6l  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(347)

我试图压缩我的Spark输出文件,我发现,sequencefile的可用于它。
我用java保存了文件,如下所示:

JavaPairRDD<Text, Text> result = ...
result.coalesce(1).saveAsNewAPIHadoopFile(outputPath.toString() + ".seq", Text.class, Text.class, SequenceFileOutputFormat.class);

但是,我无法获得saveastextfile输出和此序列文件输出之间的任何大小差异。我见过创建序列文件的不同方法,但大多数都使用scala,我应该使用java,所以我使用了这个方法。
结果对rdd类似于:

1, 123.456, 123.457, 123.458, ...
2, 123.789, 123.790, 123.791, ...
...

我做错什么了吗?或者我完全错误地理解了序列文件的概念。
顺便说一下,这个输出文件随后将用于r中的数据分析。我不能使用sparksql,dataframes等。
如果你有其他的建议,如Parquet地板或avro,在那里我不会使用Dataframe,那将是非常好的。
我只需要压缩我的文件,它们应该被解压或直接通过hadoopapi或r库使用。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题