jieba支持文本断句吗?

iq3niunx  于 4个月前  发布在  其他
关注(0)|答案(7)|浏览(81)

按照给定的标点符号规则,将文本断句切割
例如:
我是大哥,他是二哥,三哥没有.
按照逗号断句
返回结果是
我是大哥,
他是二哥,
三哥没有.
这样的,jeiba支持吗?

thtygnil

thtygnil1#

你其实可以自己训练HMM模型来断句。我本来想以jieba为基础做一个,可是这方面需求好像不大,就懒得做了。

zd287kbt

zd287kbt2#

jieba能做文本相似度的处理吗?

pb3s4cty

pb3s4cty3#

可以提取关键词,文本相似度可用别的库。话说你想干什么?

rsl1atfo

rsl1atfo4#

文本相似度有哪些好的库?
做毕设

huus2vyu

huus2vyu5#

这要看你的具体应用了,去看一下各种文本或数据相似度算法的介绍和比较,再做决定。每种成熟的算法基本上都有对应的Python库。

lnxxn5zx

lnxxn5zx6#

我基本是先分句再喂给jieba,用的re.split().

ergxz8rk

ergxz8rk7#

@gumblex 如果用HMM 該怎麼做? 就像分詞一樣的做法嗎?

相关问题