我参看了ictclass关于词性标注的介绍[1]:标点符号都应该标注为以“w”开头的字符串,而jieba目前将它们标记为“x”,即认为是“字符串”。
代码:
list(pseg.cut(u"今天的任务有四项:写程序、看电影和跑步。"))
结果:
[今天/t, 的/uj, 任务/n, 有/v, 四项/m, :/x, 写/v, 程序/n, 、/x, 看/v, 电影/n, 和/c, 跑步/n, 。/x]
请问这是bug么?
[1] http://ictclas.org/docs/ICTPOS3.0%E6%B1%89%E8%AF%AD%E8%AF%8D%E6%80%A7%E6%A0%87%E8%AE%B0%E9%9B%86.doc
3条答案
按热度按时间pprl5pva1#
另外,jieba还使用了标签“j”,而“j”并没有出现在ictclas的标准中。
a8jjtwal2#
请问uj中的j表示什么含义?
368yc8dk3#
同问,所有标点符号好像都标记为了“x”