jieba 词性标注的分词和Tokenize分词不一致？

tpxzln5u 于 2022-11-05 发布在其他

关注(0)|答案(4)|浏览(228)

import jieba.posseg as pseg
words = pseg.cut(text)

result = jieba.tokenize(text)
发现对text的分词有些不同，比如“抄的”在前面就是一个词，第二种就是2个词.请问哪里出了问题？

来源：https://github.com/fxsjy/jieba/issues/312

4条答案

按热度按时间

我也发现这个问题了，没人回复啊

赞(0）回复(0）举报 2022-11-05

@jiffies , poseg和jieba.cut使用的模型不一样，所以分词的效果有差别。

赞(0）回复(0）举报 2022-11-05

哪个好呢？　

赞(0）回复(0）举报 2022-11-05

如过我想词性标注的同时还标记出他在文中的位置，该怎么办呢

赞(0）回复(0）举报 2022-11-05

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前