配置hdfs连接器时,设置 flush.size=3
“和” rotate.interval.ms=5000
“而让我困惑的是,它是否会生成大量琐碎的文件,例如:成千上万的文件。。。
我不想成为更琐碎的文件,有没有其他可能的解决方案?
另外,这两者有什么区别 rotate.interval.ms
以及 rotate.schedule.interval.ms
?
配置hdfs连接器时,设置 flush.size=3
“和” rotate.interval.ms=5000
“而让我困惑的是,它是否会生成大量琐碎的文件,例如:成千上万的文件。。。
我不想成为更琐碎的文件,有没有其他可能的解决方案?
另外,这两者有什么区别 rotate.interval.ms
以及 rotate.schedule.interval.ms
?
1条答案
按热度按时间u0njafvf1#
设置
rotate.interval.ms=5000
将每5秒调用一次文件提交。由于默认情况下它处于禁用状态,因此您可能希望保持其不变,除非数据摄取率较低并且连接器没有写入足够的消息来提交文件。rotate.interval.ms和rotate.schedule.interval.ms的区别在于:
rotate.schedule.interval.ms
将确保在计划的时间完成提交,而不考虑以前的提交。当您必须基于当前服务器时间提交数据时(如每小时开始时),此配置非常有用。rotate.interval.ms
将每n毫秒调用一次文件提交,并确保每n毫秒调用一次文件提交。