一个网站需要保存一个图片才能从中获取文本吗?

am46iovg  于 2021-06-29  发布在  Java
关注(0)|答案(1)|浏览(262)

关闭。这个问题需要细节或清晰。它目前不接受答案。
**想改进这个问题吗?**通过编辑这个帖子来添加细节并澄清问题。

13天前关门了。
改进这个问题
我试图建立一个网站,用户需要上传一个带有文本的图像。现在该网站是suposed从图片得到这个文本。我的问题是,我需要保存图像,以便得到这个文本?如果是,我应该保存在哪里?问这个问题的原因是我能够在网站上显示图像而不保存它,但无法得到文本。

pzfprimi

pzfprimi1#

如果您能够在用户加载图像后执行触发过程,则可以使用一些ocr机制来提取文本,从而避免图像存储。
例如,tika项目只需运行.jar即可从图像/文档中提取文本:

java -jar tika-app-1.25.jar -t uploadedImage.png

似乎是一个活的项目,因为它的最后一个版本(1.25)是一个月前部署的。它使用tesseract来执行ocr处理,因此您的主机上也应该安装它。
从1.17版开始支持图像识别
ApacheTika1.17已经发布!此版本包括对自动图像字幕的新支持
有关tika项目的更多信息,请参见其主页和javadoc。
为了避免同步行为,您还可以将图像存储在某种类型的队列中,或者只存储在您常用的数据库中,然后再进行处理;这将允许您异步执行操作,并且只在有限的时间内存储图像,直到对其应用ocr机制为止。
处理之后,您还可以压缩图像并将其持久化,以便对原始内容进行某种备份(以防万一)。

相关问题