如何从spark中的序列文件中提取一系列行?

syqv5f0l  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(334)

假设我有一个非常大的序列文件,但我只想在本地处理前1000行。我该怎么做?
目前我的代码是这样的

JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);
2hh7jdfx

2hh7jdfx1#

你应该做的是 parallelize 其中之一 array :

JavaPairRDD<IntWritable,VectorWritable> RDDwith1000 = sc.parallelize(seqVectors.take(1000));

请参见下面的简单示例:

相关问题