ElasticSearch:如何索引html文件和执行搜索与"信号"

vfhzx4xs  于 2023-03-01  发布在  ElasticSearch
关注(0)|答案(1)|浏览(161)

我有一组html文档,我想将其索引到ES中。ES中是否集成了任何html解析器,可以将每个html文件的内容提取到不同的字段中(例如标题、标题、粗体文本、实际内容...),或者我必须自己提取这些信息?
此外,我需要对索引文档执行搜索:ES正在使用bm 25;是否可以使用各种信号来增强全文搜索?例如,如果关键字查询与标题或粗体文本匹配,则此类文档应优先于其他结果。
我完全是ES的初学者-我试图在ES文档中找到问题的答案,但不是很成功

lymnna71

lymnna711#

HTML条形字符过滤器可能对您有帮助-下面是doc
要根据格式添加更多权重或信号(可以通过多种方式完成),例如,您可以在索引时识别粗体或重要标记,并将其添加到附加字段,该字段将在查询时添加到should子句。

相关问题