jieba 请问怎么对日期时间类词进行准确分词

dgjrabp2  于 4个月前  发布在  其他
关注(0)|答案(7)|浏览(36)

jieba.lcut('2017年10月5日或2017-10-03或12:21和12点30分还有十二点三十分')
分出来
['2017年', '10月', '5日', '或', '2017', '-', '10', '-', '03', '或', '12', ':', '21', '和', '12点', '30分', '还有', '十二点', '三十分']
如何分成
['2017年10月5日', '或', '2017-10-3', '或', '12:21', '和', '12点30分', '还有', '十二点三十分']

5f0d552i

5f0d552i1#

把这些词汇加入到词典中 发自我的vivo智能手机 sugarZ notifications@github.com编写:…

jieba.lcut('2017年10月5日或2017-10-03或12:21和12点30分还有十二点三十分') 分出来 ['2017年', '10月', '5日', '或', '2017', '-', '10', '-', '03', '或', '12', ':', '21', '和', '12点', '30分', '还有', '十二点', '三十分'] 如何分成 ['2017年10月5日', '或', '2017-10-3', '或', '12:21', '和', '12点30分', '还有', '十二点三十分'] — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or mute the thread.

pkbketx9

pkbketx92#

之前也想到了,如果固定的几个还可以,但是非常大量的日期时间格式,没法全部加到字典,这方法太笨了.

lmvvr0a8

lmvvr0a83#

@sugarZ,请问lcut可以将“2017年”分词到一起吗,貌似我这边是“2017”,“年”

ql3eal8s

ql3eal8s4#

@JiaWenqi 好像不行,我是加的自定义词典,把最近的年份都添加了进去,还有1-12月0-24点(钟),但是如果把时间也加上就太麻烦了,如果jieba支持特定格式分词配置就好了.

kpbwa7wx

kpbwa7wx5#

目前想到一个方案,将待分词文本用时间正则进行分割后分段进行分词

mbyulnm0

mbyulnm06#

日期这种,我是先用正则提取(日期+索引),然后将原文中对应索引的字符替换为占位符(比如$),最后根据占位符进行字符替换。

相关问题