我在py2.7下re_han = re.compile("([\u4E00-\u9FD5]+)")对中英文混合分词时出现问题比如输入 中国tfboy说唱,篱笆女人等。re_han.split结果为[u‘中国’,u'tfbo' ,u'y说唱', ....]将re_han 改为 re.compile(u"([\u4E00-\u9FD5]+)")能正常分组
zujrkrfu1#
In Python2.7, I use:
s = "中国tfboy说唱,篱笆女人" list(jieba.finalseg.cut(s))
The result:
['中国', 'tfboy', '说', '唱', ',', '篱笆', '女人']
1条答案
按热度按时间zujrkrfu1#
In Python2.7, I use:
The result:
['中国', 'tfboy', '说', '唱', ',', '篱笆', '女人']