xj3cbfub1#
我是用正则表达式处理的,new_sentence = re.sub(r'[^\u4e00-\u9fa5]', ' ', old_sentence) 然后再进行分词的, \u4e00-\u9fa5这个是utf-8中,中文编码的范围
zysjyyx42#
@cbzhuang 非常谢谢你的回复! 我用了这个,不知道可对。 #169
laik7k3q3#
Actually, CJK characters are encoded together so there's no critical range for Chinese characters. A punctuation dict could be used to do the filtering.
nlejzf6q4#
@cbzhuang 很棒,但你这个' '中间多打了一个空格吧,应该是new_sentence = re.sub(r'[^\u4e00-\u9fa5]', '', old_sentence)
4条答案
按热度按时间xj3cbfub1#
我是用正则表达式处理的,new_sentence = re.sub(r'[^\u4e00-\u9fa5]', ' ', old_sentence) 然后再进行分词的, \u4e00-\u9fa5这个是utf-8中,中文编码的范围
zysjyyx42#
@cbzhuang 非常谢谢你的回复! 我用了这个,不知道可对。 #169
laik7k3q3#
Actually, CJK characters are encoded together so there's no critical range for Chinese characters. A punctuation dict could be used to do the filtering.
nlejzf6q4#
@cbzhuang 很棒,但你这个' '中间多打了一个空格吧,应该是new_sentence = re.sub(r'[^\u4e00-\u9fa5]', '', old_sentence)