textract 支持流 ```markdown 支持流 ```

irlmq6kh  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(41)

我建议添加一个功能,移除对文件扩展名的依赖,并通过接受流作为textract的输入,为用户带来更大的灵活性。

g0czyy6m

g0czyy6m1#

听起来是一个非常有趣的主意。你是否愿意提出命令行界面的设计方案?
我的主要关注点是如何决定如何将传入的内容路由到适当的解析器。顺便说一下,我最近尝试使用mimetypes来检测我们应该使用的解析器类型(参见 #89 ),但结果相当糟糕

vshtjzan

vshtjzan2#

我处理糟糕结果的方法是尝试运行给定mimetype的所有可能扩展,直到有一个成功。这有点粗糙,但似乎对我测试过的几个文件有效。

sigwle7e

sigwle7e3#

我已经创建了一个拉取请求#99,我希望能得到一些反馈。谢谢!

llycmphe

llycmphe4#

你好!这个想法还在继续追求吗?我有一个用例,这将非常有用:}~
@frbapolkosnik @deanmalmgren

qnyhuwrf

qnyhuwrf5#

我也希望看到这件事发生👍

w46czmvw

w46czmvw6#

控制台的输出显示需要是String、Bytes等类型,但这是一个通用消息,因此底层工具支持Bytes/Streams。我希望
process(file.Read(),extension="txt")
或者类似的可以工作,但我看到还有人要求自动检测扩展名。

相关问题