java—有一个可以在hadoop上运行的多语言时态表达式标记器吗？

eagi6jfj 于 2021-06-04 发布在 Hadoop

关注(0)|答案(2)|浏览(373)

我需要从大量文本中提取日期。语言越多越好；至少有英语、西班牙语和葡萄牙语。这样的工具存在吗？在java和mavenized中？以下是我的发现：
http://code.google.com/p/heideltime/ 许多语言和一个令人印象深刻的在线演示，但需要一些奇怪的外部依赖，我怀疑这将使集群部署变得困难/不可能
http://nlp.stanford.edu/software/sutime.shtml 文件齐全，但只有英文。训练容易吗？
http://natty.joestelmach.com/ 仅限英语
https://github.com/samtingleff/jchronic 仅限英语
http://code.google.com/p/nltk/source/browse/trunk/nltk_contrib/nltk_contrib/timex.py 仅限英语
我还应该去哪里看看？

Java hadoop DateTime nlp stanford-nlp

来源：https://stackoverflow.com/questions/17241917/is-there-a-multilingual-temporal-expression-tagger-that-can-run-on-hadoop

2条答案

按热度按时间

cyej8jka1#

我一直在研究一个类似的课题。虽然没有太多的文档，但我会和大家分享我的发现。
uima本质上是一个框架，它将程序（“注解器”）粘在一个分析管道中。当非结构化数据流经管道时，注解器提取有用的位并将其写入称为公共分析结构（cas）的数据对象。
uima管道是用java实现的，因此在jvm中运行。用其他语言（如perl）编写的工具可以通过适当的 Package 器引入管道。
管道可以在mapreduceMap任务中运行。digitalpebble庞然大物项目提供了一种方便的方法来处理这个问题。

赞(0）回复(0）举报 2021-06-04

eblbsuwk2#

你可能会发现apache tika很有用。

赞(0）回复(0）举报 2021-06-04