jieba 日文分词方案

zy1mlcev  于 2022-10-26  发布在  其他
关注(0)|答案(3)|浏览(320)

您好,请问如果我要做日文的分词有什么方案吗?
我通过在词库里面加入日文无法进行成功分词

4sup72z8

4sup72z81#

如果是专做日文分词干嘛用jieba啊,用MeCab。

b4lqfgs4

b4lqfgs42#

如果是专做日文分词干嘛用jieba啊,用MeCab。

主要是带分词的文章既包含英文也可能包含日文,属于中英日混合型文章,但日文和英文只占少数,如果单独使用日文分词反而不太方便。
所以目前是自定义词库里面加入了 英文及日文词库,将 jieba.re_han_default 修改为
re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&._%-\u0800-\u4e00]+)", re.U)
能支持一些词库的日文分词。

但是不知道是否有更好的实现方式。

另外想请教一下 想这类中英日混合文章如何分词会方便一点?
比如像您说的直接 将文章通过正则分成3中版本,然后使用各自的分词函数?
不太知道这个正则如何来区分,感觉应该是会破坏文章原有的词性结构。
比如 加油ing 这类匹配没想好。

kognpnkq

kognpnkq3#

我这边的话都是整句的混用,比如收集了1w个样本,有人说中文,有人说日语这样,这样的话配合一个语言检测就可以。
但是您说的这种,“加油ing,頑張れ~”除了加用户词典,我就没啥好办法了(捂脸)。

相关问题