jieba 关于finalseg模块中re_han的问题

esyap4oy  于 2023-02-04  发布在  其他
关注(0)|答案(1)|浏览(148)

我在py2.7下
re_han = re.compile("([\u4E00-\u9FD5]+)")对中英文混合分词时出现问题
比如输入 中国tfboy说唱,篱笆女人等。
re_han.split结果为[u‘中国’,u'tfbo' ,u'y说唱', ....]
将re_han 改为 re.compile(u"([\u4E00-\u9FD5]+)")能正常分组

zujrkrfu

zujrkrfu1#

In Python2.7, I use:

s = "中国tfboy说唱,篱笆女人"
list(jieba.finalseg.cut(s))

The result:

['中国', 'tfboy', '说', '唱', ',', '篱笆', '女人']

相关问题