使用hadoop和各种文档(pdf、ppt、ms word、纯文本等)进行可搜索存档的最佳实践

oipij1gg 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(437)

我有一个问题，我有各种格式的文件，如pdf，ms word，ppt，纯文本等，都存储在hdfs中。我应该将内容提取到elasticsearch索引中，并为其构建一个全文搜索系统。我读过关于es-hadoop的文章。但我不太清楚在这种情况下我是否可以使用es或apache tika的mapper attachments插件，以及es hadoop是否是实时的（以防我使用它）。
我很好奇，从文档中提取内容到es索引并进行搜索的正确方法是什么。
任何帮助都将不胜感激。
沙钦

hadoop hdfs elasticsearch full-text-search elasticsearch-plugin

来源：https://stackoverflow.com/questions/36403927/best-practices-for-searchable-archive-with-hadoop-with-variety-of-documentspdf

1条答案

按热度按时间

cbwuti441#

关于您是否使用es-mapper附件插件或apache tika的问题。我建议您使用mapper插件，因为它与elasticsearch集成得很好，可以节省大量的索引开销，并为正在索引的文档添加元信息。
据我所知，es-hadoop不公开流（实时）api。我正在使用es-hadoop和apache-spark，不得不自己使用apache-kafka实现elasticsearch的流式数据。
希望有帮助。

赞(0）回复(0）举报 2021-06-02

我来回答

使用hadoop和各种文档(pdf、ppt、ms word、纯文本等)进行可搜索存档的最佳实践

1条答案

相关问题

热门标签

最新问答