如何在apachespark中使用hadoop输入格式?

zqdjd7g9  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(521)

我有一节课 ImageInputFormat 在hadoop中,它从hdfs读取图像。如何在spark中使用我的输入格式?
这是我的 ImageInputFormat :

public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {

    @Override
    public ImageRecordReader createRecordReader(InputSplit split, 
                  TaskAttemptContext context) throws IOException, InterruptedException {
        return new ImageRecordReader();
    }

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
}
djp7away

djp7away1#

所有图像都存储在hadooprdd中?
是的,spark中保存的所有内容都是RDD
是否可以设置rdd容量,当rdd满时,剩余数据将存储在磁盘中?
spark中的默认存储级别是(storagelevel.memory\u only),使用memory\u only\u ser,这样更节省空间。请参阅spark文档>scala编程>rdd持久性
如果数据太大会影响性能吗?
随着数据大小的增加,它也会影响性能。

zvokhttg

zvokhttg2#

sparkcontext有一个名为 hadoopFile . 它接受实现接口的类 org.apache.hadoop.mapred.InputFormat 它的描述是“获取具有任意输入格式的hadoop文件的rdd”。
另请看一下spark文档。

相关问题