CoreNLP 核心NLP的引用归属功能几乎无法使用/准确率非常低,

ev7lccsx  于 6个月前  发布在  其他
关注(0)|答案(1)|浏览(64)

引述提取的准确率相当低,要么是我做错了什么,要么应该在文档中将其声明为实验性。CoreNLP在处理有多个发言者、非典型表达词的句子时会挣扎,例如她叹了口气...而不是她说了...,并且经常错误地识别出标准发言者。
原始文本中的一些非常困难的部分如下。CoreNLP甚至在容易/不模糊的部分上失败(下面的结果带有错误标记!):
"圣诞节没有礼物就不会是圣诞节,"乔躺在地毯上嘟囔着。
"贫穷真是可怕!"梅格低头看着她的旧裙子叹气道。
"我觉得有些女孩有很多漂亮的东西,而另一些女孩却一无所有,这不公平,"小艾米带着受伤的鼻音补充道。
"我们有父亲和母亲,还有彼此,"贝思满足地从她的角落里说。
火光映照在四个年轻的脸上,这些话使他们脸上露出了笑容,但当乔悲伤地说:"我们没有父亲,而且很长一段时间内都不会有他。" 她没有说"也许永远不会有",但每个人都默默地加上了这句话,想着远在战斗中的爸爸。
没有人说话一分钟;然后梅格用一种改变的语气说:"你知道妈妈提议这个圣诞节不要送任何礼物的原因是因为它将是一个艰难的冬天;她认为我们不应该花钱买乐子,当我们的男人们在军队里受苦时。我们不能做太多事,但我们可以做我们的小牺牲,而且应该高兴地去做。但我恐怕我做不到,"梅格一边想一边摇了摇头,想起了她想要的所有漂亮的东西。
"但我认为我们应该花的钱不会有什么好处。我们每人都有一美元,军队也不会因为我们的捐赠而得到多少帮助。我同意不指望从妈妈或你们那里得到什么,但我真的想为自己买温迪和辛特兰。我已经想要很久了,"乔是一个书虫。
"我计划把我的一美元花在新音乐上,"贝思轻叹了一口气,这时谁也没有听到,只有壁炉刷和水壶支架听到了。
"我会得到一套漂亮的法布尔绘图铅笔盒;我真的需要它们,"艾米坚定地说。
"妈妈没有提到我们的钱,而且她也不想让我们放弃一切。让我们各自买自己想要的东西,开一点玩笑;我相信我们工作得很辛苦才赚到钱的,"乔装作绅士的样子打量着她的鞋跟。
"我知道我确实做了--教那些讨厌的孩子几乎整天都在学校里,当我渴望在家里享受的时候,"梅格开始抱怨的语气又出现了。
"你没有像我一样辛苦,"乔说。 "你怎么能忍受几个小时被一个紧张、挑剔的老妇人关在里面?她总是不满意,让你跑来跑去,而且一直担心你,直到你准备跳出Windows或者哭出来?"
"发脾气是不对的,但我真的觉得洗碗和保持东西整洁是世界上最糟糕的工作。这让我生气,我的手都僵硬了,我根本无法好好练习。" 贝思看着她粗糙的手叹了口气,任何人都能听到那时的声音。
"我不认为你们中的任何一个人像我一样受苦,"艾米哭着说:"因为你们不必和粗鲁无礼的女孩一起去上学,如果你们不知道功课的话她们就会烦你,嘲笑你的裙子,给爸爸贴标签如果他不富有的话,当你的鼻子不好看的时候就侮辱你。"
"如果你的意思是诽谤的话,我会说是的,而不是谈论标签,好像爸爸是一个泡菜瓶一样,"乔笑着建议道。
"我知道我的意思是什么,你也不需要对这个问题持统计学的态度。使用好的语言是很正常的,可以提高你的词汇量,"艾米以尊严的口吻回答道。
"别互相攻击了孩子们。你们不希望我们有爸爸失去的钱吗?亲爱的梅格?他去世的时候我们还那么小。" 梅格记得更美好的日子。
"你们前几天说过你们比国王的孩子更快乐,因为他们在战斗和烦恼中度过每一天,尽管他们有很多钱。"
"所以我说的是那样的啊,贝思。我想我们是的。虽然我们确实要工作,但我们会自嘲一下自己,成为一个相当愉快的小团体,就像乔说的那样。"

ckocjqey

ckocjqey1#

我还注意到,当说话者不是命名实体时,引用归属会挣扎。
这个句子处理正确:

"We arrested John Smith on Friday", said Anna
{'id': 0, 'text': '"We arrested John Smith on Friday"', 'beginIndex': 0, 'endIndex': 34, 'beginToken': 0, 'endToken': 7, 'beginSentence': 0, 'endSentence': 0, 'speaker': 'Anna', 'canonicalSpeaker': 'Anna'}

但这个会产生一个未知的说话者:

"We arrested John Smith on Friday", said the police officer
{'id': 0, 'text': '"We arrested John Smith on Friday"', 'beginIndex': 0, 'endIndex': 34, 'beginToken': 0, 'endToken': 7, 'beginSentence': 0, 'endSentence': 0, 'speaker': 'Unknown', 'canonicalSpeaker': 'Unknown'}

相关问题