我建议添加一个功能,移除对文件扩展名的依赖,并通过接受流作为textract的输入,为用户带来更大的灵活性。
g0czyy6m1#
听起来是一个非常有趣的主意。你是否愿意提出命令行界面的设计方案?我的主要关注点是如何决定如何将传入的内容路由到适当的解析器。顺便说一下,我最近尝试使用mimetypes来检测我们应该使用的解析器类型(参见 #89 ),但结果相当糟糕
vshtjzan2#
我处理糟糕结果的方法是尝试运行给定mimetype的所有可能扩展,直到有一个成功。这有点粗糙,但似乎对我测试过的几个文件有效。
sigwle7e3#
我已经创建了一个拉取请求#99,我希望能得到一些反馈。谢谢!
llycmphe4#
你好!这个想法还在继续追求吗?我有一个用例,这将非常有用:}~@frbapolkosnik @deanmalmgren
qnyhuwrf5#
我也希望看到这件事发生👍
w46czmvw6#
控制台的输出显示需要是String、Bytes等类型,但这是一个通用消息,因此底层工具支持Bytes/Streams。我希望process(file.Read(),extension="txt")或者类似的可以工作,但我看到还有人要求自动检测扩展名。
process(file.Read(),extension="txt")
6条答案
按热度按时间g0czyy6m1#
听起来是一个非常有趣的主意。你是否愿意提出命令行界面的设计方案?
我的主要关注点是如何决定如何将传入的内容路由到适当的解析器。顺便说一下,我最近尝试使用mimetypes来检测我们应该使用的解析器类型(参见 #89 ),但结果相当糟糕
vshtjzan2#
我处理糟糕结果的方法是尝试运行给定mimetype的所有可能扩展,直到有一个成功。这有点粗糙,但似乎对我测试过的几个文件有效。
sigwle7e3#
我已经创建了一个拉取请求#99,我希望能得到一些反馈。谢谢!
llycmphe4#
你好!这个想法还在继续追求吗?我有一个用例,这将非常有用:}~
@frbapolkosnik @deanmalmgren
qnyhuwrf5#
我也希望看到这件事发生👍
w46czmvw6#
控制台的输出显示需要是String、Bytes等类型,但这是一个通用消息,因此底层工具支持Bytes/Streams。我希望
process(file.Read(),extension="txt")
或者类似的可以工作,但我看到还有人要求自动检测扩展名。