在Solr 9.1中使用Tesseract OCR

1cklez4t 于 2023-02-04 发布在 Solr

关注(0)|答案(1)|浏览(242)

我有一个设置运行，我可以在Solr（8.11.2与tika 1.27）中提取，并从Tesseract（5.2.0）中获得OCR。
为此，我在tika-parsers-1.27.jar中更新了TesseractOCRConfig.properties，其中包含

tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan

我现在试图复制安装与solr 9.1（Tika 1.28.4）和相同的魔方安装，文件正在提取，但我没有得到任何OCR。
在9.1.0中，我在提取jpg文件时得到以下内容：

"x_parsed_by":["org.apache.tika.parser.DefaultParser",
                 "org.apache.tika.parser.jpeg.JpegParser"],

在8.11.2的设置中，当提取相同的jpg时，我会得到以下内容：

"x_parsed_by":["org.apache.tika.parser.DefaultParser",
                   "org.apache.tika.parser.ocr.TesseractOCRParser",
                   "org.apache.tika.parser.jpeg.JpegParser"],

solr

来源：https://stackoverflow.com/questions/74735265/using-tesseract-ocr-with-solr-9-1

1条答案

按热度按时间

polkgigr1#

打开9.x中默认打开的安全管理器，这可以通过设置环境变量来完成：

SOLR_SECURITY_MANAGER_ENABLED=false

问题是org.apache.tika.parser.ocr.TesseractOCRParser需要对安装tesseract的文件夹具有执行权限。
当确定是否应该加载TesseractOCRParser时，它会检查是否可以根据配置定位和调用Tesseract，用于查看是否可以执行外部解析器的check方法在其他异常中捕获SecurityException，并仅返回false而不进行任何日志记录，因此即使打开日志记录，也没有配置错误的迹象。

赞(0）回复(0）举报 2023-02-04

我来回答

在Solr 9.1中使用Tesseract OCR

1条答案

相关问题

热门标签

最新问答