jieba 连在一起的数词和量词可以分到一起去吗?

46scxncf  于 4个月前  发布在  其他
关注(0)|答案(2)|浏览(40)

比如:
s = u'''出租 珠江新城 13楼独立90方 2房2 全配套 月8400元''' cut = jieba.cut(s) print ','.join(cut)

结果是
出租, ,珠江新城, ,13,楼,独立,90,方, ,2,房,2, ,全,配套, ,月,8400,元

有可能把13楼、90方、2房、2房2、月8400元给单独划分出来吗?

dvtswwa3

dvtswwa31#

可以,但需要你自己单独提供词库 lfol notifications@github.com 于2018年9月1日周六 下午4:36写道:…

比如: s = u'''出租 珠江新城 13楼独立90方 2房2 全配套 月8400元''' cut = jieba.cut(s) print ','.join(cut) 结果是 出租, ,珠江新城, ,13,楼,独立,90,方, ,2,房,2, ,全,配套, ,月,8400,元 有可能把13楼、90方、2房、2房2、月8400元给单独划分出来吗? — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#665>, or mute the thread < https://github.com/notifications/unsubscribe-auth/AaXy0hBiwe3XSNWR8GFIFhy4w56w2teuks5uWkb_gaJpZM4WWIsV > .

5ssjco0h

5ssjco0h2#

from pyhanlp import *

segment = HanLP.newSegment().enableNumberQuantifierRecognize(True)
sentences = [
    "十九元套餐包括什么",
    "九千九百九十九朵玫瑰",
    "壹佰块都不给我",
    "9012345678只蚂蚁",
    "牛奶三〇〇克*2",
    "ChinaJoy“扫黄”细则露胸超2厘米罚款",
]
for sentence in sentences:
    print(segment.seg(sentence))
[十九元/mq, 套餐/n, 包括/v, 什么/ry]
[九千九百九十九朵/mq, 玫瑰/n]
[壹佰块/mq, 都/d, 不/d, 给/p, 我/rr]
[9012345678只/mq, 蚂蚁/n]
[牛奶/nf, 三〇〇克/mq, */w, 2/m]
[ChinaJoy/nx, “/w, 扫黄/vi, ”/w, 细则/n, 露/v, 胸/ng, 超/v, 2厘米/mq, 罚款/vi]

相关问题