kafka connect hdfs在confluent v4.0中忽略flush.size

cwtwac6a 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(646)

在迁移到ConfluentV4.0之后 flush.size 因为Kafka连接hdfs不再适用于我。它与ConfluentV3.x一起工作。
这是当前配置文件：

name=my-job-name
connector.class=io.confluent.connect.hdfs.HdfsSinkConnector
tasks.max=1

topics=my-topic-name

hdfs.url=hdfs://my/path
hadoop.conf.dir=/etc/hadoop/conf/
flush.size=50000

# rotate.interval.ms=80000

当我开始这项工作时，它会在hdfs中生成数以百万计的小avro文件。

-rw-r--r--   ...     43.8 K 2018-01-29 13:26 /my/path/topics/my-topic-name/partition=5/my-topic-name+5+0000000000+0000000143.avro
-rw-r--r--   ...      3.7 K 2018-01-29 13:26 /my/path/topics/my-topic-name/partition=5/my-topic-name+5+0000000144+0000000149.avro
...

从偏移量可以看出，有些文件只包含6个事件。我错过了什么？为什么我会看到这种新的行为？

apache-kafka apache-kafka-connect

来源：https://stackoverflow.com/questions/48510464/kafka-connect-hdfs-ignores-flush-size-in-confluent-v4-0