我正在尝试在纯文本文件上运行dcoref系统,并希望得到CoNLL 2012格式的输出。
我已经尝试了几种方法:
$ ./corenlp.sh -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref \
-file /tmp/example.txt \
-coref.conllOutputPath /tmp/example.conll
然而,这个选项被忽略了,我得到了XML输出。
$ ./corenlp.sh -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref \
-file /tmp/example.txt -outputFormat conll \
-output.columns doctitle,section,idx,word,lemma,pos,ner,headidx,deprel,link
这个选项被尊重了,但是“link”没有给出共指信息,我不知道我应该使用哪个其他列。
关于在CoNLL 2011数据上运行系统并对其进行评估的说明是有的,但对于这个用例,我没有注解过的数据。
1条答案
按热度按时间muk1a3rh1#
I wrote a conversion script from XML to CoNLL 2012:
https://gist.github.com/andreasvc/6bf9e10b2e6956ce32fb777e7efe99cb