lucene Solr 8.6.3无法索引html文件

dwbf0jvd  于 2022-11-07  发布在  Lucene
关注(0)|答案(1)|浏览(170)
solr/
├── bin/
├── CHANGES.TXT
├── contrib/
├── dist/
├── docs/
├── example/
├── licenses
............
├── server/
└── tempfolder/
    └── index.html

我有以下文件夹结构和我的solr版本是8.6.3。当我输入命令:

bin/post -c solrhelp -filetypes html tempfolder/

我得到以下错误:
Solr返回了错误#404(未找到),URL为:您可以在这里找到一个新的资源literal.id。
但是在solr-8.3.1中这个命令可以正常工作。solr-8.6.3支持html文件索引吗?如果支持,怎么做?

x8goxv8g

x8goxv8g1#

您必须启用ExtractingRequestHandler并将其配置为/extract可用。这可能在您的旧安装中已经完成。
如果您没有使用示例配置集,使用Solr Cell所需的jar将不会自动加载。您需要配置solrconfig.xml以查找ExtractingRequestHandler及其依赖项:

<lib dir="${solr.install.dir:../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../..}/dist/" regex="solr-cell-\d.*\.jar" />

然后,您可以在solrconfig.xml中配置ExtractingRequestHandler。以下是Solr's _default配置集中的默认配置,您可以根据需要修改它:

<requestHandler name="/update/extract"
            startup="lazy"
            class="solr.extraction.ExtractingRequestHandler" >
  <lst name="defaults">
    <str name="lowernames">true</str>
    <str name="fmap.content">_text_</str>
  </lst>
</requestHandler>

相关问题