我想用jieba分词后,只想提出里面的中文分词,不要标点符号,怎么用python处理啊 谢谢

8e2ybdfx  于 2022-10-26  发布在  Python
关注(0)|答案(4)|浏览(231)
  • No description provided.*
xj3cbfub

xj3cbfub1#

我是用正则表达式处理的,new_sentence = re.sub(r'[^\u4e00-\u9fa5]', ' ', old_sentence) 然后再进行分词的, \u4e00-\u9fa5这个是utf-8中,中文编码的范围

zysjyyx4

zysjyyx42#

@cbzhuang 非常谢谢你的回复! 我用了这个,不知道可对。 #169

laik7k3q

laik7k3q3#

Actually, CJK characters are encoded together so there's no critical range for Chinese characters. A punctuation dict could be used to do the filtering.

nlejzf6q

nlejzf6q4#

@cbzhuang 很棒,但你这个' '中间多打了一个空格吧,应该是new_sentence = re.sub(r'[^\u4e00-\u9fa5]', '', old_sentence)

相关问题