java—如何在关闭parquetwriter对象并将其写入磁盘之前获取其内存大小？

hfsqlsce 于 2021-05-30 发布在 Hadoop

关注(0)|答案(2)|浏览(300)

我正在从流中读取avro消息，并使用parquet.hadoop.parquetwriter将它们写入parquet文件。我正在尝试使输出文件的大小超过阈值限制。问题是parquetwriter将所有内容都保存在内存中，并且只在writer关闭时才将其写入磁盘。基于parquet文档，数据以最终格式写入内存对象，这意味着内存中对象的大小与磁盘上的最终大小相同。我的问题是如何获得内存中写入数据的大小，以便决定关闭writer？
我尝试使用我写入parquetwriter的avro消息的字节大小作为parquet writer文件大小的估计值，但由于parquet存储数据的方式（列格式）不同，这与parquet writer的大小非常不同。以下是我所做工作的伪代码：

ParquetWriter parquetWriter = new ParquetWriter(..., BLOCK_SIZE, PAGE_SIZE);    
    long bytesWrittenSofar = 0;

    public long getLength(){
        return bytesWrittenSofar;
    }
    public void write(org.apache.avro.generic.GenericRecord record){
        parquetWriter.write(record);
        bytesWrittenSofar += avroToBytes(record).length;
    }

    public static byte[] avroToBytes(GenericRecord record){
        GenericDatumWriter<GenericRecord> writer =
            new GenericDatumWriter<GenericRecord>(record.getSchema());
        ByteArrayOutputStream out = new ByteArrayOutputStream();
        BinaryEncoder encoder = EncoderFactory.get().binaryEncoder(out, null);
        writer.write(record, encoder);
        encoder.flush();
        out.close();
        return out.toByteArray();
    }

结果发现，我从getlength（）得到的值与Parquet文件的实际文件大小非常不同。我知道模式将被添加到文件的末尾，但这是非常小的。只是给你一个想法，当getlength（）报告130mb时，实际的文件大小只有80mb。

Java hadoop avro parquet

来源：https://stackoverflow.com/questions/28888062/how-to-get-in-memory-size-of-the-parquetwriter-object-before-closing-it-and-writ