nlp.js Bug in extractor-enum.js with original text indexes

ahy6op9u 于 5个月前发布在其他

关注(0)|答案(1)|浏览(50)

下午好，

我遇到了一个问题，那就是重复的标记(我想识别查询上的操作),我认为extractor-enum.js中的函数extract(srcInput)有一个小错误，originalTextIndex被token长度增加，但没有增加分隔符。
例如：

您需要识别以下实体：sum
您处理以下句子：I want the sum of something1, sum of something2, sum of something3... , sum of something10
当未考虑分割字符(空格或逗号)时，会导致originalPositionMap字典中出现重复值。
我正在使用的版本是4.27.0:
npm list node-nlp
`-- node-nlp@4.27.0
这个问题发生在extractor-enum.js的第306行到第322行(async extract(srcInput))
祝好。

nlp.js

来源：https://github.com/axa-group/nlp.js/issues/1331

1条答案

按热度按时间

kuhbmx9i1#

我认为将这个：
originalTextIndex += tokenizeResult.tokens[i].length;
改为这个：
originalTextIndex = originaltextPos + tokenizeResult.tokens[i].length;
可能会解决这个问题。

赞(0）回复(0）举报 5个月前

我来回答

nlp.js Bug in extractor-enum.js with original text indexes

1条答案

相关问题

热门标签

最新问答