我有一个设置运行,我可以在Solr(8.11.2与tika 1.27)中提取,并从Tesseract(5.2.0)中获得OCR。
为此,我在tika-parsers-1.27.jar中更新了TesseractOCRConfig.properties,其中包含
tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan
我现在试图复制安装与solr 9.1(Tika 1.28.4)和相同的魔方安装,文件正在提取,但我没有得到任何OCR。
在9.1.0中,我在提取jpg文件时得到以下内容:
"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.jpeg.JpegParser"],
在8.11.2的设置中,当提取相同的jpg时,我会得到以下内容:
"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.ocr.TesseractOCRParser",
"org.apache.tika.parser.jpeg.JpegParser"],
1条答案
按热度按时间polkgigr1#
打开9.x中默认打开的安全管理器,这可以通过设置环境变量来完成:
问题是
org.apache.tika.parser.ocr.TesseractOCRParser
需要对安装tesseract的文件夹具有执行权限。当确定是否应该加载TesseractOCRParser时,它会检查是否可以根据配置定位和调用Tesseract,用于查看是否可以执行外部解析器的
check
方法在其他异常中捕获SecurityException
,并仅返回false而不进行任何日志记录,因此即使打开日志记录,也没有配置错误的迹象。