描述问题
例1:我给了他15万元。
amr 解析结果如下图:
“15万” 未被正确解析
例2: 我给了他十五点八万元。
“十五点八万” 未被正确解析
例3: 我给了他十元三角八分钱。
“十元三角八分” 未被正确解析
复现问题的代码
提供一个最小必要的可复现问题的测试用例。
当前行为描述
将“15万”改为“十五万”后,可解析为 “150000”。
错误应出自数字转换的过程。 可以参考 https://github.com/microsoft/Recognizers-Text
预期行为
能正确显示 label。
当然了,输出数据里的 anchors 标记了原文位置,所以问题也不是特别的大😄
看了下输出的数据,anchors是保留了原文的位置,所以问题也不是特别的大。
系统信息
- OS Platform and Distribution (Linux Ubuntu 16.04):
- Python version: 3.9
- HanLP version: 2.1b23
其他信息/日志
包括任何有助于诊断问题的日志或源代码。如果包括回溯,请包括完整的回溯。大型日志和文件应附加。
- 我已完成此表单并搜索了解决方案。
4条答案
按热度按时间vjhs03f71#
感谢反馈,的确存在中文数字解析的问题。微软的东西试过了,也没法处理一些混合小数与单位的情况,还是得靠自己改了改。请应用补丁:
anhgbhbe2#
关于部分数值缺失,这是由于模型未能预测出来,而非预测错误导致的转换。目前尚无很好的解决方案,可能需要与NER进行联合学习。
bf1o4zei3#
期待
ar7v8xwq4#
复制的官网的demo,testutility 一直报错是什么原因?换了几个版本 1.8 .3 1.7.7 1.7.6 1.5.4 都报错