在djvu文档中可以嵌入文本信息。
lg40wkob1#
伟大的主意;知道任何解析 .djvu 的实用程序吗?
5jvtdoz22#
也许 djvutxt ?
djvutxt
DJVUTXT(1) DjVuLibre-3.5 DJVUTXT(1) NAME djvutxt - Extract the hidden text from DjVu documents. SYNOPSIS djvutxt [options] inputdjvufile [outputtxtfile]
如果djvu中没有文本块,可以像处理其他图片一样使用相同的OCR方法。
hi3rlvi23#
听起来很棒。想要提交一个pull请求吗?doc_parser.py模块应该是这个功能的一个很好的起点。
hs1rzwqc4#
我不确定你是否已经开始了这个工作,但我想提一下我已经合并了 #39 ,现在它切换到了使用基于类的解析器集合,而不是在 v0.5.1 中存在的基于函数的解析器。请查看当前的解析器——尤其是 textract.parsers.doc_parser ——如果你有任何问题,请告诉我!
textract.parsers.doc_parser
jv4diomz5#
尚未开始,只是保持这个标签打开;自由地开始开发这个功能。如果/当我决定尝试为这个打补丁时,我会在这里写。(实际上我还没有克隆 "textract")
rseugnpd6#
好的,听起来不错。我本人从未遇到过.djvu文件,所以我可能不会很快开发它。不过这是一个很好的想法。
6条答案
按热度按时间lg40wkob1#
伟大的主意;知道任何解析 .djvu 的实用程序吗?
5jvtdoz22#
也许
djvutxt
?如果djvu中没有文本块,可以像处理其他图片一样使用相同的OCR方法。
hi3rlvi23#
听起来很棒。想要提交一个pull请求吗?doc_parser.py模块应该是这个功能的一个很好的起点。
hs1rzwqc4#
我不确定你是否已经开始了这个工作,但我想提一下我已经合并了 #39 ,现在它切换到了使用基于类的解析器集合,而不是在 v0.5.1 中存在的基于函数的解析器。请查看当前的解析器——尤其是
textract.parsers.doc_parser
——如果你有任何问题,请告诉我!jv4diomz5#
尚未开始,只是保持这个标签打开;
自由地开始开发这个功能。
如果/当我决定尝试为这个打补丁时,我会在这里写。
(实际上我还没有克隆 "textract")
rseugnpd6#
好的,听起来不错。我本人从未遇到过.djvu文件,所以我可能不会很快开发它。不过这是一个很好的想法。