kafka connect hdfs:小文件和rotate.interval设置之间的差异

bjg7j2ky  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(708)

配置hdfs连接器时,设置 flush.size=3 “和” rotate.interval.ms=5000 “而让我困惑的是,它是否会生成大量琐碎的文件,例如:成千上万的文件。。。

我不想成为更琐碎的文件,有没有其他可能的解决方案?
另外,这两者有什么区别 rotate.interval.ms 以及 rotate.schedule.interval.ms ?

u0njafvf

u0njafvf1#

设置 rotate.interval.ms=5000 将每5秒调用一次文件提交。由于默认情况下它处于禁用状态,因此您可能希望保持其不变,除非数据摄取率较低并且连接器没有写入足够的消息来提交文件。
rotate.interval.ms和rotate.schedule.interval.ms的区别在于: rotate.schedule.interval.ms 将确保在计划的时间完成提交,而不考虑以前的提交。当您必须基于当前服务器时间提交数据时(如每小时开始时),此配置非常有用。 rotate.interval.ms 将每n毫秒调用一次文件提交,并确保每n毫秒调用一次文件提交。

相关问题