HanLP AMR 部分节点缺失锚点信息、标签错误

i7uq4tfw  于 6个月前  发布在  其他
关注(0)|答案(2)|浏览(103)

Bug描述

amr模型:MRP2020_AMR_ZHO_MENGZI_BASE
例1 输入 ["我", "不", "吃饭"]
执行结果中, 吃饭 对应的 "anchors": []

{
        "id": "0",
        "input": "我 不 吃饭",
        "nodes": [
            {
                "id": 0,
                "label": "我",
                "anchors": [
                    {
                        "from": 0,
                        "to": 1
                    }
                ]
            },
            {
                "id": 1,
                "label": "-",
                "anchors": [
                    {
                        "from": 2,
                        "to": 3
                    }
                ]
            },
            {
                "id": 2,
                "label": "吃饭-01",
                "anchors": []
            }
        ],
        "edges": [
            {
                "source": 2,
                "target": 1,
                "label": "polarity"
            },
            {
                "source": 2,
                "target": 0,
                "label": "arg0"
            }
        ],
        "tops": [
            2
        ],
        "framework": "amr"
    }

例2, 输入 ["我", "吃饭"]
吃饭 对应的 "label": "死-01", "anchors": []

{
        "id": "0",
        "input": "我 吃饭",
        "nodes": [
            {
                "id": 0,
                "label": "我",
                "anchors": [
                    {
                        "from": 0,
                        "to": 1
                    }
                ]
            },
            {
                "id": 1,
                "label": "死-01",
                "anchors": []
            }
        ],
        "edges": [
            {
                "source": 1,
                "target": 0,
                "label": "arg0"
            }
        ],
        "tops": [
            1
        ],
        "framework": "amr"
    }

复现问题的代码

提供一个最小必要的可复现测试用例,以生成问题。

当前行为

上述例子在线版测试时label没有问题

预期行为

清晰简洁地描述您期望发生的事情。

系统信息

  • OS平台和发行版(例如,Linux Ubuntu 16.04):Linux Ubuntu 16.04
  • Python版本:3.9
  • HanLP版本:2.1b27
    其他信息/日志

包括任何有助于诊断问题的日志或源代码。如果包括回溯,请包括完整的回溯。大型日志和文件应附加。

  • 我已完成此表单并在网上搜索了解决方案。
s4n0splo

s4n0splo1#

目前发现:加一个标点,则结果正常
输入: ["我", "吃饭", "。"]
输出:

{
        "id": "0",
        "input": "我 吃饭 。",
        "nodes": [
            {
                "id": 0,
                "label": "我",
                "anchors": [
                    {
                        "from": 0,
                        "to": 1
                    }
                ]
            },
            {
                "id": 1,
                "label": "吃饭-01",
                "anchors": [
                    {
                        "from": 2,
                        "to": 4
                    }
                ]
            }
        ],
        "edges": [
            {
                "source": 1,
                "target": 0,
                "label": "arg0"
            }
        ],
        "tops": [
            1
        ],
        "framework": "amr"
    }
8xiog9wr

8xiog9wr2#

有意思。CAMR语料库可能还是太正式了。

相关问题