我想用jieba分词后，只想提出里面的中文分词，不要标点符号，怎么用python处理啊谢谢

8e2ybdfx 于 2022-10-26 发布在 Python

关注(0)|答案(4)|浏览(231)

No description provided.*

jieba

来源：https://github.com/fxsjy/jieba/issues/528

4条答案

按热度按时间

xj3cbfub1#

我是用正则表达式处理的，new_sentence = re.sub(r'[^\u4e00-\u9fa5]', ' ', old_sentence) 然后再进行分词的, \u4e00-\u9fa5这个是utf-8中，中文编码的范围

赞(0）回复(0）举报 2022-10-26

zysjyyx42#

@cbzhuang 非常谢谢你的回复！我用了这个，不知道可对。 #169

赞(0）回复(0）举报 2022-10-26

laik7k3q3#

Actually, CJK characters are encoded together so there's no critical range for Chinese characters. A punctuation dict could be used to do the filtering.

赞(0）回复(0）举报 2022-10-26

nlejzf6q4#

@cbzhuang 很棒，但你这个' '中间多打了一个空格吧，应该是new_sentence = re.sub(r'[^\u4e00-\u9fa5]', '', old_sentence)

赞(0）回复(0）举报 2022-10-26

我来回答

我想用jieba分词后，只想提出里面的中文分词，不要标点符号，怎么用python处理啊谢谢

4条答案

相关问题

热门标签

最新问答

我想用jieba分词后，只想提出里面的中文分词，不要标点符号，怎么用python处理啊 谢谢

4条答案

相关问题

热门标签

最新问答

我想用jieba分词后，只想提出里面的中文分词，不要标点符号，怎么用python处理啊谢谢