nlp.js Bug in extractor-enum.js with original text indexes

ahy6op9u  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(45)

下午好,

我遇到了一个问题,那就是重复的标记(我想识别查询上的操作),我认为extractor-enum.js中的函数extract(srcInput)有一个小错误,originalTextIndex被token长度增加,但没有增加分隔符。
例如:

  1. 您需要识别以下实体:sum
  2. 您处理以下句子:I want the sum of something1, sum of something2, sum of something3... , sum of something10
  3. 当未考虑分割字符(空格或逗号)时,会导致originalPositionMap字典中出现重复值。
    我正在使用的版本是4.27.0:
    npm list node-nlp
    `-- node-nlp@4.27.0
    这个问题发生在extractor-enum.js的第306行到第322行(async extract(srcInput))
    祝好。
kuhbmx9i

kuhbmx9i1#

我认为将这个:
originalTextIndex += tokenizeResult.tokens[i].length;
改为这个:
originalTextIndex = originaltextPos + tokenizeResult.tokens[i].length;
可能会解决这个问题。

相关问题