jieba的词性标注结果与ictclas标准不一致

hsvhsicv  于 4个月前  发布在  其他
关注(0)|答案(3)|浏览(67)

我参看了ictclass关于词性标注的介绍[1]:标点符号都应该标注为以“w”开头的字符串,而jieba目前将它们标记为“x”,即认为是“字符串”。

代码:

list(pseg.cut(u"今天的任务有四项:写程序、看电影和跑步。"))

结果:

[今天/t, 的/uj, 任务/n, 有/v, 四项/m, :/x, 写/v, 程序/n, 、/x, 看/v, 电影/n, 和/c, 跑步/n, 。/x]

请问这是bug么?

[1] http://ictclas.org/docs/ICTPOS3.0%E6%B1%89%E8%AF%AD%E8%AF%8D%E6%80%A7%E6%A0%87%E8%AE%B0%E9%9B%86.doc

pprl5pva

pprl5pva1#

另外,jieba还使用了标签“j”,而“j”并没有出现在ictclas的标准中。

a8jjtwal

a8jjtwal2#

请问uj中的j表示什么含义?

368yc8dk

368yc8dk3#

同问,所有标点符号好像都标记为了“x”

相关问题