jieba.lcut('2017年10月5日或2017-10-03或12:21和12点30分还有十二点三十分')
分出来['2017年', '10月', '5日', '或', '2017', '-', '10', '-', '03', '或', '12', ':', '21', '和', '12点', '30分', '还有', '十二点', '三十分']
如何分成['2017年10月5日', '或', '2017-10-3', '或', '12:21', '和', '12点30分', '还有', '十二点三十分']
7条答案
按热度按时间5f0d552i1#
把这些词汇加入到词典中 发自我的vivo智能手机 sugarZ notifications@github.com编写:…
jieba.lcut('2017年10月5日或2017-10-03或12:21和12点30分还有十二点三十分') 分出来 ['2017年', '10月', '5日', '或', '2017', '-', '10', '-', '03', '或', '12', ':', '21', '和', '12点', '30分', '还有', '十二点', '三十分'] 如何分成 ['2017年10月5日', '或', '2017-10-3', '或', '12:21', '和', '12点30分', '还有', '十二点三十分'] — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or mute the thread.
pkbketx92#
之前也想到了,如果固定的几个还可以,但是非常大量的日期时间格式,没法全部加到字典,这方法太笨了.
lmvvr0a83#
@sugarZ,请问lcut可以将“2017年”分词到一起吗,貌似我这边是“2017”,“年”
ql3eal8s4#
@JiaWenqi 好像不行,我是加的自定义词典,把最近的年份都添加了进去,还有1-12月0-24点(钟),但是如果把时间也加上就太麻烦了,如果jieba支持特定格式分词配置就好了.
kpbwa7wx5#
目前想到一个方案,将待分词文本用时间正则进行分割后分段进行分词
mbyulnm06#
日期这种,我是先用正则提取(日期+索引),然后将原文中对应索引的字符替换为占位符(比如$),最后根据占位符进行字符替换。
bvhaajcl7#
http://evenvi.com/index.php/archives/66/ 试试这个,用jieba实现的