运行stanfordnlp的apache storm性能问题

wb1gzix0  于 2021-06-21  发布在  Storm
关注(0)|答案(0)|浏览(271)

所以我们有一个螺栓,它可以获取数据并尝试使用stanfordnlp解析它。主要目的是识别实体,对句子中的单词进行分类,并试图找到提到的词。下面是stanfordcorenlp对象的设置。注意,我在这里也添加了twitter模型。

Properties props = new Properties();
    props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
    props.put("pos.model", "gate-EN-twitter.model");
    props.put("dcoref.score", true);
    StanfordCoreNLP pipeline = new StanfordCoreNLP(props);

起初,启动需要一段时间,所以我们在conf/storm.yaml中将supervisor.worker.start.timeout.secs增加到300。
现在,当它运行的时候,它是如此的慢。。。另外,我们还有奇怪的例外。这样地
java.lang.arrayindexoutofboundsexception:-1 at java.util.arraylist.elementdata(arraylist。java:403)~[na:1.8.0\u 05]在java.util.arraylist.get(arraylist。java:416)~[na:1.8.0\u 05]在edu.stanford.nlp.dcoref.rulebasedcorefindenefinder.funkyfindleafwithapproximatespan(rulebasedcorefindenefinder。java:418)~[stormjar]。jar:na]在edu.stanford.nlp.dcoref.rulebasedcoref.findsyntacchead(rulebasedcoref.finder)。java:346)~[stormjar]。jar:na]在edu.stanford.nlp.dcoref.rulebasedcorefinder.findhead(rulebasedcorefinder。java:274)~[stormjar]。jar:na]在edu.stanford.nlp.dcoref.rulebasedcorefinder.extractedpredictedments(rulebasedcorefinder。java:100)~[stormjar]。jar:na]在edu.stanford.nlp.pipeline.deterministiccorefanotator.annotate(deterministiccorefanotator。java:107)~[stormjar]。jar:na]在edu.stanford.nlp.pipeline.annotationpipeline.annotate(annotationpipeline。java:67) ~[stormjar]。jar:na]在edu.stanford.nlp.pipeline.stanfordcorenlp.annotate(stanfordcorenlp。java:881)~[stormjar]。jar:na]
关于如何在ApacheStorm内部设置stanfordnlp螺栓,有什么最佳实践吗?
谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题