下午好,
我遇到了一个问题,那就是重复的标记(我想识别查询上的操作),我认为extractor-enum.js中的函数extract(srcInput)有一个小错误,originalTextIndex被token长度增加,但没有增加分隔符。
例如:
- 您需要识别以下实体:sum
- 您处理以下句子:I want the sum of something1, sum of something2, sum of something3... , sum of something10
- 当未考虑分割字符(空格或逗号)时,会导致originalPositionMap字典中出现重复值。
我正在使用的版本是4.27.0:
npm list node-nlp
`-- node-nlp@4.27.0
这个问题发生在extractor-enum.js的第306行到第322行(async extract(srcInput))
祝好。
1条答案
按热度按时间kuhbmx9i1#
我认为将这个:
originalTextIndex += tokenizeResult.tokens[i].length;
改为这个:
originalTextIndex = originaltextPos + tokenizeResult.tokens[i].length;
可能会解决这个问题。