jieba 词性标注的分词和Tokenize分词不一致?

tpxzln5u  于 2022-11-05  发布在  其他
关注(0)|答案(4)|浏览(226)

import jieba.posseg as pseg
words = pseg.cut(text)

result = jieba.tokenize(text)
发现对text的分词有些不同,比如“抄的”在前面就是一个词,第二种就是2个词.请问哪里出了问题?

oxiaedzo

oxiaedzo1#

我也发现这个问题了,没人回复啊

idfiyjo8

idfiyjo82#

@jiffies , poseg和jieba.cut使用的模型不一样,所以分词的效果有差别。

q8l4jmvw

q8l4jmvw4#

如过我想词性标注的同时还标记出他在文中的位置,该怎么办呢

相关问题