我们有一个中文网站,使用solr搜索和寻找最好的中文标记器。cjktokenizer在理论上看起来是最好的,但我在任何地方都找不到实际的实现。在任何地方,我都可以看到CJKfilter(而不是tokenizer)与其他一些tokenizer一起实现。
我是否可以直接使用以下内容:
<fieldType name="text_general" class="solr.TextField">
<analyzer>
<tokenizer class="org.apache.solr.analysis.CJKTokenizerFactory"/>
</analyzer>
</fieldType>
有没有我可以参考的cjktokenizer实现代码?cjktokenizer已被弃用,这些是唯一的选项?(如本页所示)https://lucene.apache.org/core/4_3_0/analyzers-common/org/apache/lucene/analysis/cjk/cjktokenizer.html)
暂无答案!
目前还没有任何答案,快来回答吧!