jieba 日文分词方案

zy1mlcev 于 2022-10-26 发布在其他

关注(0)|答案(3)|浏览(320)

您好，请问如果我要做日文的分词有什么方案吗？
我通过在词库里面加入日文无法进行成功分词

jieba

来源：https://github.com/fxsjy/jieba/issues/848

3条答案

按热度按时间

4sup72z81#

如果是专做日文分词干嘛用jieba啊，用MeCab。

赞(0）回复(0）举报 2022-10-26

b4lqfgs42#

如果是专做日文分词干嘛用jieba啊，用MeCab。

主要是带分词的文章既包含英文也可能包含日文，属于中英日混合型文章，但日文和英文只占少数，如果单独使用日文分词反而不太方便。
所以目前是自定义词库里面加入了英文及日文词库，将 jieba.re_han_default 修改为
re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&._%-\u0800-\u4e00]+)", re.U)
能支持一些词库的日文分词。

但是不知道是否有更好的实现方式。

另外想请教一下想这类中英日混合文章如何分词会方便一点？
比如像您说的直接将文章通过正则分成3中版本，然后使用各自的分词函数？
不太知道这个正则如何来区分，感觉应该是会破坏文章原有的词性结构。
比如加油ing 这类匹配没想好。

赞(0）回复(0）举报 2022-10-26

kognpnkq3#

我这边的话都是整句的混用，比如收集了1w个样本，有人说中文，有人说日语这样，这样的话配合一个语言检测就可以。
但是您说的这种，“加油ing，頑張れ~”除了加用户词典，我就没啥好办法了（捂脸）。

赞(0）回复(0）举报 2022-10-26