.net tesseract-ocr只使用ascii？

woobm2wo 于 2023-08-08 发布在 .NET

关注(0)|答案(3)|浏览(122)

我一直在使用tesseract-ocr（在.NET中），它一直运行良好。我喂它的图像是ascii只（A-z 0 -9）。有没有办法告诉它不要使用特殊字符？

.net

来源：https://stackoverflow.com/questions/2655725/tesseract-ocr-use-ascii-only

3条答案

按热度按时间

fnvucqvd1#

在上面链接的谷歌论坛上有一个关于这个问题的新帖子。第一个答案的结论是，这可能是不可能的。
据我所知，这是正确的，如果你使用的是Tesseract打包的语言数据文件。但是，如果您是training on your own box files，则可以非常容易地限制输出字符。这几乎是自动的：如果unicharset_extractor在box文件中没有找到任何非ASCII字符，则在输出中永远不会看到非ASCII字符。
当我第一次开始使用Tesseract时，我对输出中的所有interpuncts和其他unusual characters同样感到沮丧，在我自己的box文件上训练解决了这个问题。您甚至可以使用Tesseract training data作为起点。

赞(0）回复(0）举报 2023-08-08

nzkunb0c2#

使用tessedit_char_whitelist配置选项。

赞(0）回复(0）举报 2023-08-08

2guxujil3#

以下是@维克托的回答：如果你知道你只会遇到语言中可用字符的一个子集，比如只有数字，你可以使用tessedit_char_whitelist配置变量。请参阅常见问题解答中的示例。
在我的例子中，我这样设置：

client.SetVariable("tessedit_char_whitelist", " !\"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~")

字符串

赞(0）回复(0）举报 2023-08-08

我来回答

.net tesseract-ocr只使用ascii？

3条答案

相关问题

热门标签

最新问答