我正在做一个网络爬虫使用python scrapy收集网站文本。我只想收集日文平假名文字。是否有解决方案可以侦测日文平假名文字?
70gysomp1#
假设您只需要平假名,并且可以将文本转换为unicode / utf8:平假名是Unicode code block U+3040 - U+309F,因此您可以使用以下语句进行测试:第一个但请注意,这不包括历史和非标准平假名(hentaigana)、空格、标点符号、片假名和日本汉字:第一个您可以允许空白:第一个但我会避免走上这条过于具体的道路,有很多困难的问题,像编码,半角字符,表情符号,中日韩代码块,外来词等。
mepcadol2#
一个选项是langdetect库。
pip install langdetect
然后在您的代码中:
from langdetect import detect detect("ハローワールド")
将返回文本的语言代码,即ja日语文本往往是平假名,片假名和汉字的混合。它需要特别识别平假名吗?
ja
2条答案
按热度按时间70gysomp1#
假设您只需要平假名,并且可以将文本转换为unicode / utf8:
平假名是Unicode code block U+3040 - U+309F,因此您可以使用以下语句进行测试:
第一个
但请注意,这不包括历史和非标准平假名(hentaigana)、空格、标点符号、片假名和日本汉字:
第一个
您可以允许空白:
第一个
但我会避免走上这条过于具体的道路,有很多困难的问题,像编码,半角字符,表情符号,中日韩代码块,外来词等。
mepcadol2#
一个选项是langdetect库。
然后在您的代码中:
将返回文本的语言代码,即
ja
日语文本往往是平假名,片假名和汉字的混合。它需要特别识别平假名吗?