假设我有一个非常大的序列文件,但我只想在本地处理前1000行。我该怎么做?目前我的代码是这样的
JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);
2hh7jdfx1#
你应该做的是 parallelize 其中之一 array :
parallelize
array
JavaPairRDD<IntWritable,VectorWritable> RDDwith1000 = sc.parallelize(seqVectors.take(1000));
请参见下面的简单示例:
1条答案
按热度按时间2hh7jdfx1#
你应该做的是
parallelize
其中之一array
:请参见下面的简单示例: