jieba 如何才可以自动识别 xx年xx月xx日 浮点数

ix0qys7i  于 2022-10-26  发布在  其他
关注(0)|答案(1)|浏览(191)

比如 1989年 就会被结巴切成 1989 年
12月 被切成 12 月
31日 被切成 31 日
《中国好声音》 会被切成 中国 声音
"我爱你中国" 会被切成 我爱你 中国
6.8 被切成 6 . 8

hkmswyz6

hkmswyz61#

可以先用re的findall匹配出来,然后用字典做个Map替换成英文加序号,之后划分后再根据字典替换回来。比如第一个匹配的替换成mask1,第二个mask2...。至于中文,可以添加用户字典。
例子:1989年12月31日《中国好声音》6.8
替换后:mask1《中国好声音》mask2
划分后:mask1/《/中国好声音/》/mask2
再一次替换:1989年12月31日/《/中国好声音/》/6.8

相关问题