HanLP amr解析部分数字出错

ifmq2ha2  于 6个月前  发布在  其他
关注(0)|答案(4)|浏览(94)

描述问题

例1:我给了他15万元。
amr 解析结果如下图:

15万” 未被正确解析
例2: 我给了他十五点八万元。

十五点八万” 未被正确解析
例3: 我给了他十元三角八分钱。

十元三角八分” 未被正确解析

复现问题的代码

提供一个最小必要的可复现问题的测试用例。

当前行为描述

将“15万”改为“十五万”后,可解析为 “150000”。
错误应出自数字转换的过程。 可以参考 https://github.com/microsoft/Recognizers-Text

预期行为

能正确显示 label。
当然了,输出数据里的 anchors 标记了原文位置,所以问题也不是特别的大😄
看了下输出的数据,anchors是保留了原文的位置,所以问题也不是特别的大。

系统信息

  • OS Platform and Distribution (Linux Ubuntu 16.04):
  • Python version: 3.9
  • HanLP version: 2.1b23
    其他信息/日志

包括任何有助于诊断问题的日志或源代码。如果包括回溯,请包括完整的回溯。大型日志和文件应附加。

  • 我已完成此表单并搜索了解决方案。
vjhs03f7

vjhs03f71#

感谢反馈,的确存在中文数字解析的问题。微软的东西试过了,也没法处理一些混合小数与单位的情况,还是得靠自己改了改。请应用补丁:

pip3 install perin_parser -U
anhgbhbe

anhgbhbe2#

关于部分数值缺失,这是由于模型未能预测出来,而非预测错误导致的转换。目前尚无很好的解决方案,可能需要与NER进行联合学习。

ar7v8xwq

ar7v8xwq4#

复制的官网的demo,testutility 一直报错是什么原因?换了几个版本 1.8 .3 1.7.7 1.7.6 1.5.4 都报错

相关问题