在上面链接的谷歌论坛上有一个关于这个问题的新帖子。第一个答案的结论是,这可能是不可能的。 据我所知,这是正确的,如果你使用的是Tesseract打包的语言数据文件。但是,如果您是training on your own box files,则可以非常容易地限制输出字符。这几乎是自动的:如果unicharset_extractor在box文件中没有找到任何非ASCII字符,则在输出中永远不会看到非ASCII字符。 当我第一次开始使用Tesseract时,我对输出中的所有interpuncts和其他unusual characters同样感到沮丧,在我自己的box文件上训练解决了这个问题。您甚至可以使用Tesseract training data作为起点。
3条答案
按热度按时间fnvucqvd1#
在上面链接的谷歌论坛上有一个关于这个问题的新帖子。第一个答案的结论是,这可能是不可能的。
据我所知,这是正确的,如果你使用的是Tesseract打包的语言数据文件。但是,如果您是training on your own box files,则可以非常容易地限制输出字符。这几乎是自动的:如果
unicharset_extractor
在box文件中没有找到任何非ASCII字符,则在输出中永远不会看到非ASCII字符。当我第一次开始使用Tesseract时,我对输出中的所有interpuncts和其他unusual characters同样感到沮丧,在我自己的box文件上训练解决了这个问题。您甚至可以使用Tesseract training data作为起点。
nzkunb0c2#
使用tessedit_char_whitelist配置选项。
2guxujil3#
以下是@维克托的回答:如果你知道你只会遇到语言中可用字符的一个子集,比如只有数字,你可以使用
tessedit_char_whitelist
配置变量。请参阅常见问题解答中的示例。在我的例子中,我这样设置:
字符串