您好,请问如果我要做日文的分词有什么方案吗?我通过在词库里面加入日文无法进行成功分词
4sup72z81#
如果是专做日文分词干嘛用jieba啊,用MeCab。
b4lqfgs42#
主要是带分词的文章既包含英文也可能包含日文,属于中英日混合型文章,但日文和英文只占少数,如果单独使用日文分词反而不太方便。所以目前是自定义词库里面加入了 英文及日文词库,将 jieba.re_han_default 修改为re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&._%-\u0800-\u4e00]+)", re.U)能支持一些词库的日文分词。
但是不知道是否有更好的实现方式。
另外想请教一下 想这类中英日混合文章如何分词会方便一点?比如像您说的直接 将文章通过正则分成3中版本,然后使用各自的分词函数?不太知道这个正则如何来区分,感觉应该是会破坏文章原有的词性结构。比如 加油ing 这类匹配没想好。
kognpnkq3#
我这边的话都是整句的混用,比如收集了1w个样本,有人说中文,有人说日语这样,这样的话配合一个语言检测就可以。但是您说的这种,“加油ing,頑張れ~”除了加用户词典,我就没啥好办法了(捂脸)。
3条答案
按热度按时间4sup72z81#
如果是专做日文分词干嘛用jieba啊,用MeCab。
b4lqfgs42#
如果是专做日文分词干嘛用jieba啊,用MeCab。
主要是带分词的文章既包含英文也可能包含日文,属于中英日混合型文章,但日文和英文只占少数,如果单独使用日文分词反而不太方便。
所以目前是自定义词库里面加入了 英文及日文词库,将 jieba.re_han_default 修改为
re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&._%-\u0800-\u4e00]+)", re.U)
能支持一些词库的日文分词。
但是不知道是否有更好的实现方式。
另外想请教一下 想这类中英日混合文章如何分词会方便一点?
比如像您说的直接 将文章通过正则分成3中版本,然后使用各自的分词函数?
不太知道这个正则如何来区分,感觉应该是会破坏文章原有的词性结构。
比如 加油ing 这类匹配没想好。
kognpnkq3#
我这边的话都是整句的混用,比如收集了1w个样本,有人说中文,有人说日语这样,这样的话配合一个语言检测就可以。
但是您说的这种,“加油ing,頑張れ~”除了加用户词典,我就没啥好办法了(捂脸)。