textract .djvu支持

nwo49xxi  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(45)

在djvu文档中可以嵌入文本信息。

lg40wkob

lg40wkob1#

伟大的主意;知道任何解析 .djvu 的实用程序吗?

5jvtdoz2

5jvtdoz22#

也许 djvutxt ?

DJVUTXT(1)                                                        DjVuLibre-3.5                                                        DJVUTXT(1)

NAME
       djvutxt - Extract the hidden text from DjVu documents.

SYNOPSIS
       djvutxt [options] inputdjvufile [outputtxtfile]

如果djvu中没有文本块,可以像处理其他图片一样使用相同的OCR方法。

hi3rlvi2

hi3rlvi23#

听起来很棒。想要提交一个pull请求吗?doc_parser.py模块应该是这个功能的一个很好的起点。

hs1rzwqc

hs1rzwqc4#

我不确定你是否已经开始了这个工作,但我想提一下我已经合并了 #39 ,现在它切换到了使用基于类的解析器集合,而不是在 v0.5.1 中存在的基于函数的解析器。请查看当前的解析器——尤其是 textract.parsers.doc_parser ——如果你有任何问题,请告诉我!

jv4diomz

jv4diomz5#

尚未开始,只是保持这个标签打开;
自由地开始开发这个功能。
如果/当我决定尝试为这个打补丁时,我会在这里写。
(实际上我还没有克隆 "textract")

rseugnpd

rseugnpd6#

好的,听起来不错。我本人从未遇到过.djvu文件,所以我可能不会很快开发它。不过这是一个很好的想法。

相关问题