我正在java中使用Tesser4jTesseract。它工作得很好,可以让我做我需要的事情。
但我遇到了一个没有指导和帮助就无法解决的问题。
让我们说,我有以下图像:
然后提供以下输出:
第1列第2列第3列
第1行第1列第3行
第2行第1列第2行第2列第2行第2列第3列
这是我的密码
String readFile(String inputFilePath){
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(path);
tesseract.setLanguage("eng");
tesseract.setTessVariable("user_defined_dpi", "300");
String string = null;
try {
string = tesseract.doOCR(new File(inputFilePath));
} catch (TesseractException e) {
e.printStackTrace();
}
return string;
}
有没有一种方法可以让我达到一个模仿图像的效果?所以我可以区分这些列。
1条答案
按热度按时间wqlqzqxt1#
您可以保留空间,然后对其进行计数:
tesseract.setTessVariable("preserve_interword_spaces", "1");