目前我们正在做一个内存缓存机制的搜索功能的实现。现在数据越来越大,我们无法在内存中处理它。此外,我们从不同的系统(oracle、flat file和git)获得了更多的输入源。你能告诉我如何才能实现这个过程吗?我们以为es会帮上忙。但是,如果在最终源代码中发生任何更改,我们如何提供输入呢(批处理没有帮助)hadoop—不是我们不处理的那种级别的数据,也分享您的想法。
eiee3dmh1#
我们从不同的系统(oracle、flat file和git)获得了更多的输入源我想这就是为什么你给Kafka贴标签?会有用的,但你提出了一个正确的观点但是,如果发生任何变化,我们如何提供输入。。。?对于纯文本或git事件,您显然需要更改一些解析器引擎并重新启动作业,以便在消息模式中获得额外的数据。对于oracle,goldengate产品将发布表列更改,kafka connect可以识别这些事件并相应地更新负载。如果您只关心搜索内容,那么有很多工具,但是您提到了elasticsearch,因此使用filebeat可以用于纯文本,而logstash可以用于各种其他类型的输入源。如果您有Kafka,那么将事件馈送给Kafka,让logstash或kafka connect更新事件
1条答案
按热度按时间eiee3dmh1#
我们从不同的系统(oracle、flat file和git)获得了更多的输入源
我想这就是为什么你给Kafka贴标签?会有用的,但你提出了一个正确的观点
但是,如果发生任何变化,我们如何提供输入。。。?
对于纯文本或git事件,您显然需要更改一些解析器引擎并重新启动作业,以便在消息模式中获得额外的数据。
对于oracle,goldengate产品将发布表列更改,kafka connect可以识别这些事件并相应地更新负载。
如果您只关心搜索内容,那么有很多工具,但是您提到了elasticsearch,因此使用filebeat可以用于纯文本,而logstash可以用于各种其他类型的输入源。如果您有Kafka,那么将事件馈送给Kafka,让logstash或kafka connect更新事件