如何使用java读取hadoop序列文件

cnwbcb6i  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(432)

我有一个由spark使用saveasobjectfile函数生成的序列文件。文件内容只是一些整数。我想用java在本地阅读。这是我的密码:

FileSystem fileSystem = null;
    SequenceFile.Reader in = null;
    try {
        fileSystem = FileSystem.get(conf);
        Path path = new Path("D:\\spark_sequence_file");
        in = new SequenceFile.Reader(conf, SequenceFile.Reader.file(path));
        Writable key = (Writable)
                ReflectionUtils.newInstance(in.getKeyClass(), conf);
        BytesWritable value = new BytesWritable();
        while (in.next(key, value)) {
            byte[] val_byte = value.getBytes();
            int val = ByteBuffer.wrap(val_byte, 0, 4).getInt();
        }
    } catch (IOException e) {
        e.printStackTrace();
    }

但我不能正确地阅读它;我只是得到了所有相同的值,显然它们是错误的。这是我的答案

文件头如下:

有人能帮我吗?

guicsvcw

guicsvcw1#

在hadoop中,键的类型通常为writeablecomparable,值的类型为writeable。记住这个基本概念,我以下面的方式阅读序列文件。

Configuration config = new Configuration();
Path path = new Path(PATH_TO_YOUR_FILE);
SequenceFile.Reader reader = new SequenceFile.Reader(FileSystem.get(config), path, config);
WritableComparable key = (WritableComparable) reader.getKeyClass().newInstance();
Writable value = (Writable) reader.getValueClass().newInstance();
while (reader.next(key, value))
  // do some thing
reader.close();

您案例中的数据问题可能是因为您使用 saveAsObjectFile() 而不是使用 saveAsSequenceFile(String path,scala.Option<Class<? extends org.apache.hadoop.io.compress.CompressionCodec>> codec) 请尝试使用上述方法,看看问题是否仍然存在。

相关问题