jieba 关于finalseg模块中re_han的问题

esyap4oy 于 2023-02-04 发布在其他

关注(0)|答案(1)|浏览(147)

我在py2.7下
re_han = re.compile("([\u4E00-\u9FD5]+)")对中英文混合分词时出现问题
比如输入中国tfboy说唱,篱笆女人等。
re_han.split结果为[u‘中国’，u'tfbo' ，u'y说唱', ....]
将re_han 改为 re.compile(u"([\u4E00-\u9FD5]+)")能正常分组

jieba

来源：https://github.com/fxsjy/jieba/issues/414

1条答案

按热度按时间

zujrkrfu1#

In Python2.7, I use:

s = "中国tfboy说唱,篱笆女人"
list(jieba.finalseg.cut(s))

The result:

['中国', 'tfboy', '说', '唱', ',', '篱笆', '女人']

赞(0）回复(0）举报 2023-02-04

我来回答

jieba 关于finalseg模块中re_han的问题

1条答案

相关问题

热门标签

最新问答