带OCR的Elasticsearch摄取附件处理器

qnyhuwrf 于 2023-05-06 发布在 ElasticSearch

关注(0)|答案(1)|浏览(167)

我想从图像和扫描的PDF中摄取文本到弹性，我知道摄取处理器基于Apache Tika，Apache Tika应该有Tesseract OCR支持。
有没有可能以某种方式启用它？如果是的话，这不是违反了弹性许可协议吗？

elasticsearch

来源：https://stackoverflow.com/questions/76162003/elasticsearch-ingest-attachment-processor-with-ocr

1条答案

按热度按时间

4dc9hkyq1#

从图像、PDF等中摄取文本。可以使用fscrawler。
我的建议是：使用workplace search。
全文内容提取全文提取支持以下文件类型：
.doc .docx .html .odt .one .md .markdown .paper .pdf .ppt .pptx .rtf .txt .xls .xlsx化的文本文件被规范化以减少空白并最小化存储成本：
.md .markdown .paper .rtf .txt
https://www.elastic.co/guide/en/workplace-search/current/content-sources-content-extraction.html#content-sources-content-extraction-text

赞(0）回复(0）举报 2023-05-06

我来回答

带OCR的Elasticsearch摄取附件处理器

1条答案

相关问题

热门标签

最新问答