elasticsearch MediaWiki搜索不在上传目录中的文件中的文本

44u64gxh  于 2023-08-03  发布在  ElasticSearch
关注(0)|答案(1)|浏览(114)

我在Ubuntu 20.04上运行了一个小型Wiki。
我的目标是在一个挂载目录中索引文件(主要是pdf,但也包括docx和pptx)并搜索其中的文本。我可以在使用TikaAllTheFiles扩展名上传到Wiki的pdf文件中进行全文搜索,如何将文件包含在外部目录中?
我的设置:

  • 简体中文
  • PostgreSQL 12.15
  • Elasticsearch 7.10.2
  • MW-Extension CirrusSearch 6.5.4
  • MW-Extension Elastica 6.2.0
  • MW-Extension TikaAllTheFiles 1.0.1
envsm3lx

envsm3lx1#

您必须将您的文件“上传”到wiki。所以所有的文件都有文件页。这里有一些工具,可以做一个批量上传
https://mediawiki.org/wiki/Category:Bulk_upload
我认为这是你最好的选择:
https://mediawiki.org/wiki/Manual:ImportImages.php
您可以更改存储文件的目录,这可以是外部的,如AWS S3存储桶,您也可以配置为使用您的挂载存储来上传文件,请参阅:
https://www.mediawiki.org/wiki/Manual:$wgForeignFileRepos Manual:$wgForeignFileRepos -一种更灵活的配置共享上传存储库的方法(如果您想设置多个共享上传源,这也是唯一的方法)

相关问题