我需要使用自定义标记器为一些文档编制索引。我的示例文档如下所示:
"I love to live in New York"
而表达式列表为:
["new york", "good bye", "cold war"]
有没有办法正常地对字符串进行标记化而不对我的数据集进行标记化?
["I", "love", "to", "live", "in", "New York"]
ffvjumwh1#
是的,但您需要在分析器定义中给出您的数据集,因为您的数据集中没有模式,这样这些词就会被排除在您的标记化过程之外,在您的数据集上添加一个工作样本。
1条答案
按热度按时间ffvjumwh1#
是的,但您需要在分析器定义中给出您的数据集,因为您的数据集中没有模式,这样这些词就会被排除在您的标记化过程之外,在您的数据集上添加一个工作样本。