如何将数据附加到现有的Parquet文件

yduiuuwa 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(489)

我使用以下代码来创建parquetwriter并向其写入记录。

ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);

final GenericRecord record = new GenericData.Record(avroSchema);

parquetWriter.write(record);

但它只允许创建新文件（在指定的路径）。有没有一种方法可以将数据附加到现有的Parquet文件（路径）中？缓存parquetwriter在我的情况下是不可行的。

Java hadoop parquet

来源：https://stackoverflow.com/questions/39234391/how-to-append-data-to-an-existing-parquet-file

2条答案

按热度按时间

fae0ux8s1#

parquet是一个列文件，它优化了将所有列写在一起。如果需要任何编辑来重写文件。
来自wiki
面向列的数据库将一列的所有值序列化在一起，然后将下一列的值序列化，依此类推。对于我们的示例表，数据将按以下方式存储：

10:001,12:002,11:003,22:004;
Smith:001,Jones:002,Johnson:003,Jones:004;
Joe:001,Mary:002,Cathy:003,Bob:004;
40000:001,50000:002,44000:003,55000:004;

一些链接
https://en.wikipedia.org/wiki/column-oriented_dbms
https://parquet.apache.org/

赞(0）回复(0）举报 2021-05-29

y3bcpkx12#

有一个名为append的spark api保存模式：https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/savemode.html 我相信这能解决你的问题。
使用示例：

df.write.mode('append').parquet('parquet_data_file')

赞(0）回复(0）举报 2021-05-29

我来回答

如何将数据附加到现有的Parquet文件

2条答案

相关问题

热门标签

最新问答