如何在java中用分区将avro对象写入parquet？如何将数据附加到同一Parquet地板？

b0zn9rqh 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(349)

我正在使用confluent的kafkaavroderserializer反序列化通过kafka发送的avro对象。我想把收到的数据写入Parquet文件。我希望能够将数据附加到同一个Parquet地板上，并创建带有分区的Parquet地板。
我设法用avroparquetwriter创建了一个Parquet地板-但我没有找到如何添加分区或附加到同一个文件：
在使用avro之前，我使用spark来编写parquet——spark编写带有分区的parquet，使用append模式很简单——我是否应该尝试从avro对象创建rdd并使用spark来创建parquet？

avro apache-kafka apache-spark spark-avro parquet

来源：https://stackoverflow.com/questions/53300897/how-to-write-avro-objects-to-parquet-with-partitions-in-java-how-to-append-dat

1条答案

按热度按时间

myss37ts1#

我想把Parquet写给hdfs
就我个人而言，我不会用spark来做这个。
我宁愿使用hdfsKafka连接器。这是一个可以让你开始的配置文件。

name=hdfs-sink

# List of topics to read

topics=test_hdfs

connector.class=io.confluent.connect.hdfs.HdfsSinkConnector

# increase to be the sum of the partitions for all connected topics

tasks.max=1 

# the folder where core-site.xml and hdfs-site.xml exist

hadoop.conf.dir=/etc/hadoop

# the namenode url, defined as fs.defaultFS in the core-site.xml

hdfs.url=hdfs://hdfs-namenode.example.com:9000

# number of messages per file

flush.size=10 

# The format to write the message values

format.class=io.confluent.connect.hdfs.parquet.ParquetFormat

# Setup Avro parser

value.converter=io.confluent.connect.avro.AvroConverter
value.converter.schema.registry.url=http://schema-registry.example.com:8081
value.converter.schemas.enable=true
schema.compatibility=BACKWARD

如果您希望hdfs分区基于一个字段而不是文字上的“kafka partition”编号，那么请参阅 FieldPartitioner . 如果你想自动集成Hive，请参阅文件，以及。
假设您确实想使用spark，但是，您可以尝试absaoss/abris在avroDataframe中读取，然后您应该能够执行以下操作 df.write.format("parquet").path("/some/path") （不是精确的代码，因为我没有试过）

赞(0）回复(0）举报 2021-06-07

我来回答

如何在java中用分区将avro对象写入parquet？如何将数据附加到同一Parquet地板？

1条答案

相关问题

热门标签

最新问答