hadoop sequencefile和textfile之间没有大小差异？

lsmepo6l 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(347)

我试图压缩我的Spark输出文件，我发现，sequencefile的可用于它。
我用java保存了文件，如下所示：

JavaPairRDD<Text, Text> result = ...
result.coalesce(1).saveAsNewAPIHadoopFile(outputPath.toString() + ".seq", Text.class, Text.class, SequenceFileOutputFormat.class);

但是，我无法获得saveastextfile输出和此序列文件输出之间的任何大小差异。我见过创建序列文件的不同方法，但大多数都使用scala，我应该使用java，所以我使用了这个方法。
结果对rdd类似于：

1, 123.456, 123.457, 123.458, ...
2, 123.789, 123.790, 123.791, ...
...

我做错什么了吗？或者我完全错误地理解了序列文件的概念。
顺便说一下，这个输出文件随后将用于r中的数据分析。我不能使用sparksql，dataframes等。
如果你有其他的建议，如Parquet地板或avro，在那里我不会使用Dataframe，那将是非常好的。
我只需要压缩我的文件，它们应该被解压或直接通过hadoopapi或r库使用。

hadoop avro apache-spark parquet sequencefile

来源：https://stackoverflow.com/questions/51879826/no-size-difference-between-hadoop-sequencefile-and-textfile

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

hadoop sequencefile和textfile之间没有大小差异？

暂无答案！

相关问题

热门标签

最新问答