HanLP amr解析部分数字出错

ifmq2ha2 于 6个月前发布在其他

关注(0)|答案(4)|浏览(94)

描述问题

例1:我给了他15万元。
amr 解析结果如下图：

“15万” 未被正确解析
例2: 我给了他十五点八万元。

“十五点八万” 未被正确解析
例3: 我给了他十元三角八分钱。

“十元三角八分” 未被正确解析

复现问题的代码

提供一个最小必要的可复现问题的测试用例。

当前行为描述

将“15万”改为“十五万”后，可解析为 “150000”。
错误应出自数字转换的过程。可以参考 https://github.com/microsoft/Recognizers-Text

预期行为

能正确显示 label。
当然了，输出数据里的 anchors 标记了原文位置，所以问题也不是特别的大😄
看了下输出的数据，anchors是保留了原文的位置，所以问题也不是特别的大。

系统信息

包括任何有助于诊断问题的日志或源代码。如果包括回溯，请包括完整的回溯。大型日志和文件应附加。

4条答案

感谢反馈，的确存在中文数字解析的问题。微软的东西试过了，也没法处理一些混合小数与单位的情况，还是得靠自己改了改。请应用补丁：

pip3 install perin_parser -U

关于部分数值缺失，这是由于模型未能预测出来，而非预测错误导致的转换。目前尚无很好的解决方案，可能需要与NER进行联合学习。

期待

复制的官网的demo，testutility 一直报错是什么原因？换了几个版本 1.8 .3 1.7.7 1.7.6 1.5.4 都报错