在Solr 9.1中使用Tesseract OCR

1cklez4t  于 2023-02-04  发布在  Solr
关注(0)|答案(1)|浏览(217)

我有一个设置运行,我可以在Solr(8.11.2与tika 1.27)中提取,并从Tesseract(5.2.0)中获得OCR。
为此,我在tika-parsers-1.27.jar中更新了TesseractOCRConfig.properties,其中包含

tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan

我现在试图复制安装与solr 9.1(Tika 1.28.4)和相同的魔方安装,文件正在提取,但我没有得到任何OCR。
在9.1.0中,我在提取jpg文件时得到以下内容:

"x_parsed_by":["org.apache.tika.parser.DefaultParser",
                 "org.apache.tika.parser.jpeg.JpegParser"],

在8.11.2的设置中,当提取相同的jpg时,我会得到以下内容:

"x_parsed_by":["org.apache.tika.parser.DefaultParser",
                   "org.apache.tika.parser.ocr.TesseractOCRParser",
                   "org.apache.tika.parser.jpeg.JpegParser"],
polkgigr

polkgigr1#

打开9.x中默认打开的安全管理器,这可以通过设置环境变量来完成:

SOLR_SECURITY_MANAGER_ENABLED=false

问题是org.apache.tika.parser.ocr.TesseractOCRParser需要对安装tesseract的文件夹具有执行权限。
当确定是否应该加载TesseractOCRParser时,它会检查是否可以根据配置定位和调用Tesseract,用于查看是否可以执行外部解析器的check方法在其他异常中捕获SecurityException,并仅返回false而不进行任何日志记录,因此即使打开日志记录,也没有配置错误的迹象。

相关问题