比如 1989年 就会被结巴切成 1989 年12月 被切成 12 月31日 被切成 31 日《中国好声音》 会被切成 中国 声音"我爱你中国" 会被切成 我爱你 中国6.8 被切成 6 . 8
hkmswyz61#
可以先用re的findall匹配出来,然后用字典做个Map替换成英文加序号,之后划分后再根据字典替换回来。比如第一个匹配的替换成mask1,第二个mask2...。至于中文,可以添加用户字典。例子:1989年12月31日《中国好声音》6.8替换后:mask1《中国好声音》mask2划分后:mask1/《/中国好声音/》/mask2再一次替换:1989年12月31日/《/中国好声音/》/6.8
1条答案
按热度按时间hkmswyz61#
可以先用re的findall匹配出来,然后用字典做个Map替换成英文加序号,之后划分后再根据字典替换回来。比如第一个匹配的替换成mask1,第二个mask2...。至于中文,可以添加用户字典。
例子:1989年12月31日《中国好声音》6.8
替换后:mask1《中国好声音》mask2
划分后:mask1/《/中国好声音/》/mask2
再一次替换:1989年12月31日/《/中国好声音/》/6.8