这个问题在这里已经有答案了:
在spark中写入和读取原始字节数组-使用序列文件sequencefile(2个答案)三年前关门了。目前,我们在pig中有一个实现,可以从记录中生成序列文件,其中记录的某些属性被视为序列文件的键,并且与该键对应的所有记录都存储在一个序列文件中。当我们移动到spark时,我想知道如何在spark中实现这一点?
dm7nw8vv1#
saveassequncefile将数据另存为序列文件。
val a=sc.parallelize(List(1,2,3,4,5)).map(x=>(x,x*10)).saveAsSequenceFile("/saw1") $ hadoop fs -cat /sqes/part-00000 SEQ org.apache.hadoop.io.IntWritable org.apache.hadoop.io.IntWritableZ tTrh7��g�,�� 2[cloudera@quickstart ~]$
要读取sequencefile,请使用sc.sequencefile
val sw=sc.sequenceFile("/saw1/part-00000", classOf[IntWritable],classOf[IntWritable]).collect
1条答案
按热度按时间dm7nw8vv1#
saveassequncefile将数据另存为序列文件。
要读取sequencefile,请使用sc.sequencefile