因为没有关于这个主题的文档,所以理解如何在java中从头开始实现一个定制的tokenfilter插件是非常复杂的。我想得到一个分析器过滤器,它只返回数字标记。你知道吗?
ttp71kqs1#
现有的筛选器可以执行此操作。例如 keep_types 令牌过滤器可以做到这一点。如果你利用 <NUM> 类型,您的自定义令牌过滤器将只允许数字令牌通过并过滤掉所有其他令牌。
keep_types
<NUM>
GET _analyze { "tokenizer": "standard", "filter": [ { "type": "keep_types", "types": [ "<NUM>" ] } ], "text": "1 quick fox 2 lazy dogs" }
结果:
[1, 2]
您可以使用 pattern_capture 令牌过滤器。但是如果你真的想走java的路,那么你最好是克隆一个现有的分析插件,然后推出你自己的。
pattern_capture
1条答案
按热度按时间ttp71kqs1#
现有的筛选器可以执行此操作。例如
keep_types
令牌过滤器可以做到这一点。如果你利用
<NUM>
类型,您的自定义令牌过滤器将只允许数字令牌通过并过滤掉所有其他令牌。结果:
您可以使用
pattern_capture
令牌过滤器。但是如果你真的想走java的路,那么你最好是克隆一个现有的分析插件,然后推出你自己的。