我可以在spark中创建序列文件吗？

hl0ma9xz 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(333)

这个问题在这里已经有答案了：

在spark中写入和读取原始字节数组-使用序列文件sequencefile（2个答案）
三年前关门了。
目前，我们在pig中有一个实现，可以从记录中生成序列文件，其中记录的某些属性被视为序列文件的键，并且与该键对应的所有记录都存储在一个序列文件中。当我们移动到spark时，我想知道如何在spark中实现这一点？

hadoop mapreduce apache-spark sequencefile apache-pig

来源：https://stackoverflow.com/questions/41935165/can-i-create-sequence-file-in-spark

1条答案

按热度按时间

dm7nw8vv1#

saveassequncefile将数据另存为序列文件。

val a=sc.parallelize(List(1,2,3,4,5)).map(x=>(x,x*10)).saveAsSequenceFile("/saw1")

$ hadoop fs -cat /sqes/part-00000
SEQ org.apache.hadoop.io.IntWritable org.apache.hadoop.io.IntWritableZ      tTrh7��g�,��
2[cloudera@quickstart ~]$

要读取sequencefile，请使用sc.sequencefile

val sw=sc.sequenceFile("/saw1/part-00000", classOf[IntWritable],classOf[IntWritable]).collect

赞(0）回复(0）举报 2021-06-02

我来回答

我可以在spark中创建序列文件吗？

1条答案

相关问题

热门标签

最新问答