带OCR的Elasticsearch摄取附件处理器

qnyhuwrf  于 2023-05-06  发布在  ElasticSearch
关注(0)|答案(1)|浏览(167)

我想从图像和扫描的PDF中摄取文本到弹性,我知道摄取处理器基于Apache Tika,Apache Tika应该有Tesseract OCR支持。
有没有可能以某种方式启用它?如果是的话,这不是违反了弹性许可协议吗?

4dc9hkyq

4dc9hkyq1#

从图像、PDF等中摄取文本。可以使用fscrawler
我的建议是:使用workplace search
全文内容提取全文提取支持以下文件类型:
.doc .docx .html .odt .one .md .markdown .paper .pdf .ppt .pptx .rtf .txt .xls .xlsx化的文本文件被规范化以减少空白并最小化存储成本:
.md .markdown .paper .rtf .txt
https://www.elastic.co/guide/en/workplace-search/current/content-sources-content-extraction.html#content-sources-content-extraction-text

相关问题