textract --元数据标志?

rdrgkggo  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(43)
  • @mubaldino在#18中提到了这个问题,但我认为我应该单独开一个问题来更专注于讨论这个特定的功能。

其他工具,如Tika,也提取嵌入在文档中的元数据。我们是否也应该(可选地)用textract提取这些元数据?

这个项目的初衷是在进行任何后续的自然语言处理、分析和建模之前提供有用的文本提取。如果元数据对于这类应用也很重要(我以前的项目中肯定使用过元数据),我完全愿意添加这个功能,但我强烈认为解析器不应该被要求提取元数据。最重要的第一步是提取文本内容;元数据可以稍后提取。

如果我们最终在#39中切换到基于类的解析器,那么只需在解析器类中添加一个metadata方法就可以相对简单地实现逐个解析器的实现。
其他人对此有什么看法?
关于格式(json vs xml vs csv)有什么想法吗?我的初始偏好是字典和json,但也可以说服我采用其他方式。

snz8szmq

snz8szmq1#

我想要一个元数据解析器。JSON是最简单的。这个项目正在进行中吗?

ss2ws0br

ss2ws0br2#

@bef55 not by me; contributions welcome!

ergxz8rk

ergxz8rk3#

@deanmalmgren 如果我有这个技能,我会很高兴的。不幸的是,我没有,这就是我为什么在这里的原因。无论如何,还是要感谢大家。

qgelzfjb

qgelzfjb4#

@deanmalmgren .我想就这个问题做出贡献,可以通过mohammedyunus009@gmail.com联系我。为社区服务将是一件愉快的事情。

相关问题