我使用以下代码来创建parquetwriter并向其写入记录。
ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);
final GenericRecord record = new GenericData.Record(avroSchema);
parquetWriter.write(record);
但它只允许创建新文件(在指定的路径)。有没有一种方法可以将数据附加到现有的Parquet文件(路径)中?缓存parquetwriter在我的情况下是不可行的。
2条答案
按热度按时间fae0ux8s1#
parquet是一个列文件,它优化了将所有列写在一起。如果需要任何编辑来重写文件。
来自wiki
面向列的数据库将一列的所有值序列化在一起,然后将下一列的值序列化,依此类推。对于我们的示例表,数据将按以下方式存储:
一些链接
https://en.wikipedia.org/wiki/column-oriented_dbms
https://parquet.apache.org/
y3bcpkx12#
有一个名为append的spark api保存模式:https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/savemode.html 我相信这能解决你的问题。
使用示例: