我需要从大量文本中提取日期。语言越多越好;至少有英语、西班牙语和葡萄牙语。这样的工具存在吗?在java和mavenized中?以下是我的发现:
http://code.google.com/p/heideltime/ 许多语言和一个令人印象深刻的在线演示,但需要一些奇怪的外部依赖,我怀疑这将使集群部署变得困难/不可能
http://nlp.stanford.edu/software/sutime.shtml 文件齐全,但只有英文。训练容易吗?
http://natty.joestelmach.com/ 仅限英语
https://github.com/samtingleff/jchronic 仅限英语
http://code.google.com/p/nltk/source/browse/trunk/nltk_contrib/nltk_contrib/timex.py 仅限英语
我还应该去哪里看看?
2条答案
按热度按时间cyej8jka1#
我一直在研究一个类似的课题。虽然没有太多的文档,但我会和大家分享我的发现。
uima本质上是一个框架,它将程序(“注解器”)粘在一个分析管道中。当非结构化数据流经管道时,注解器提取有用的位并将其写入称为公共分析结构(cas)的数据对象。
uima管道是用java实现的,因此在jvm中运行。用其他语言(如perl)编写的工具可以通过适当的 Package 器引入管道。
管道可以在mapreduceMap任务中运行。digitalpebble庞然大物项目提供了一种方便的方法来处理这个问题。
eblbsuwk2#
你可能会发现apache tika很有用。