我们有一个案例,我们想连接到hdfs,并将一条消息记录到kafka主题中。本质上改变了hdfs上的数据捕获。我知道这是一个不寻常的情况,您试图从hdfs捕获更改,不幸的是,这使得搜索变得困难。我们无法访问输入到hdfs的源,因此在hdfs上捕获更改数据似乎是我们唯一的实际选择。
我不需要自己看文件。能够将一条消息放到一个主题上,包含文件的完整路径和一些其他次要信息,这就足够了。但是,我需要为hdfs处理kerberos身份验证。
看起来confluent有一个HDFS2源连接器和一个HDFS3源连接器。遗憾的是,这些片段不是开源的,很难理解它们的文档。它们似乎依赖于hdfs2sinkconnector和hdfs3sinkconnector的某些文件系统结构。如果这些可以用于此目的,则许可证不是问题。我一直想让这里有点用,但运气不好。不清楚它触发了什么事件,在哪里/如何写入主题。
我也偶然发现了这个https://github.com/mmolimar/kafka-connect-fs 但它已经有一段时间没有更新了,似乎需要一个filereader的实现,而且我看不到对kerberos的现成支持。我可能会修改以适应我们的用例。
对于合流插件,是否有其他的替代方案或更好的文档或示例?
1条答案
按热度按时间w8rqjzmb1#
听起来你想要这个
https://kafka-connect-fs.readthedocs.io/en/latest/connector.html#hdfs-文件监视程序
好久没更新了
缺乏承诺可以表明项目的稳定性,而不是缺乏发展。欢迎您打开github问题并查看是否得到响应。否则,您似乎被锁定在合流/社区支持中。
为合流插件提供更好的文档或示例
您可以将反馈发送给文档团队
mailto:docs@confluent.io?subject=Documentation Feedback
在我看来,hdfs主要是为一次写入、多次读取的体系结构而设计的,因此我建议尝试将datalake存储更改为类似s3的存储,您可以在其上触发lambda操作