elasticsearch 如何开发一个简单的搜索引擎在本地文件中进行全文搜索

mm5n2pyu  于 2023-06-21  发布在  ElasticSearch
关注(0)|答案(2)|浏览(165)

有人能告诉我从哪里开始开发一个简单的本地文件全文搜索引擎吗?
我有一个带LAMP的Debian 7服务器,我在上面安装了一个Windows网络驱动器。到目前为止,我使用this script向其他本地网络用户显示目录树,他们可以从挂载的网络驱动器下载文件。
但是我必须建立一个简单的搜索引擎,它可以索引挂载文件夹中的本地文件的名称和内容(如果有的话)- Microsoft doc,docx,xls,xlsx,rtf,txt。搜索必须返回文件的名称,路径,最好是如果有一部分文本存在搜索词(如果文件有文本)。
有没有人能给我指出正确的方向,我必须阅读和学习这样做?谢谢

mrphzbgm

mrphzbgm1#

你需要一些工具来做这件事。您需要一些东西来索引和搜索内容,并且您已经使用三个很好的工具标记了这个问题,lucenesolr

elasticsearch。其中每一个都有丰富的教程和示例来帮助您入门。
你需要的另一件事是一种从所有这些不同的文件类型中读取内容的方法。我推荐Apache Tika它是一个很好的工具包,可以读取您列出的所有格式,并且可以很好地与Lucene一起工作。
你可以在这个问题中看到它们一起使用的例子:Tika in Action book examples Lucene StandardAnalyzer does not work

qyuhtwio

qyuhtwio2#

你可能会发现这有帮助,你可能不会。
我设置了Solr和Nutch来索引我的本地文件系统并将它们存储在Solr中,并有关于如何以这种方式设置它们的指南。
这将为您的应用程序提供可靠的后端。
这里是链接。前两个用于Solr设置,后两个用于Nutch集成
http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.htmlhttp://amac4.blogspot.co.uk/2013/07/setting-up-tika-extracting-request.html
http://amac4.blogspot.co.uk/2013/07/configuring-nutch-to-crawl-urls.htmlhttp://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html

相关问题