使用hadoop和各种文档(pdf、ppt、ms word、纯文本等)进行可搜索存档的最佳实践

oipij1gg  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(436)

我有一个问题,我有各种格式的文件,如pdf,ms word,ppt,纯文本等,都存储在hdfs中。我应该将内容提取到elasticsearch索引中,并为其构建一个全文搜索系统。我读过关于es-hadoop的文章。但我不太清楚在这种情况下我是否可以使用es或apache tika的mapper attachments插件,以及es hadoop是否是实时的(以防我使用它)。
我很好奇,从文档中提取内容到es索引并进行搜索的正确方法是什么。
任何帮助都将不胜感激。
沙钦

cbwuti44

cbwuti441#

关于您是否使用es-mapper附件插件或apache tika的问题。我建议您使用mapper插件,因为它与elasticsearch集成得很好,可以节省大量的索引开销,并为正在索引的文档添加元信息。
据我所知,es-hadoop不公开流(实时)api。我正在使用es-hadoop和apache-spark,不得不自己使用apache-kafka实现elasticsearch的流式数据。
希望有帮助。

相关问题