.net tesseract-ocr只使用ascii?

woobm2wo  于 2023-08-08  发布在  .NET
关注(0)|答案(3)|浏览(121)

我一直在使用tesseract-ocr(在.NET中),它一直运行良好。我喂它的图像是ascii只(A-z 0 -9)。有没有办法告诉它不要使用特殊字符?

fnvucqvd

fnvucqvd1#

在上面链接的谷歌论坛上有一个关于这个问题的新帖子。第一个答案的结论是,这可能是不可能的。
据我所知,这是正确的,如果你使用的是Tesseract打包的语言数据文件。但是,如果您是training on your own box files,则可以非常容易地限制输出字符。这几乎是自动的:如果unicharset_extractor在box文件中没有找到任何非ASCII字符,则在输出中永远不会看到非ASCII字符。
当我第一次开始使用Tesseract时,我对输出中的所有interpuncts和其他unusual characters同样感到沮丧,在我自己的box文件上训练解决了这个问题。您甚至可以使用Tesseract training data作为起点。

nzkunb0c

nzkunb0c2#

使用tessedit_char_whitelist配置选项。

2guxujil

2guxujil3#

以下是@维克托的回答:如果你知道你只会遇到语言中可用字符的一个子集,比如只有数字,你可以使用tessedit_char_whitelist配置变量。请参阅常见问题解答中的示例。
在我的例子中,我这样设置:

client.SetVariable("tessedit_char_whitelist", " !\"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~")

字符串

相关问题