我有一组html文档,我想将其索引到ES中。ES中是否集成了任何html解析器,可以将每个html文件的内容提取到不同的字段中(例如标题、标题、粗体文本、实际内容...),或者我必须自己提取这些信息?
此外,我需要对索引文档执行搜索:ES正在使用bm 25;是否可以使用各种信号来增强全文搜索?例如,如果关键字查询与标题或粗体文本匹配,则此类文档应优先于其他结果。
我完全是ES的初学者-我试图在ES文档中找到问题的答案,但不是很成功
我有一组html文档,我想将其索引到ES中。ES中是否集成了任何html解析器,可以将每个html文件的内容提取到不同的字段中(例如标题、标题、粗体文本、实际内容...),或者我必须自己提取这些信息?
此外,我需要对索引文档执行搜索:ES正在使用bm 25;是否可以使用各种信号来增强全文搜索?例如,如果关键字查询与标题或粗体文本匹配,则此类文档应优先于其他结果。
我完全是ES的初学者-我试图在ES文档中找到问题的答案,但不是很成功
1条答案
按热度按时间lymnna711#
HTML条形字符过滤器可能对您有帮助-下面是doc
要根据格式添加更多权重或信号(可以通过多种方式完成),例如,您可以在索引时识别粗体或重要标记,并将其添加到附加字段,该字段将在查询时添加到
should
子句。