promptflow [BUG] 使用evaluate()在测试数据集上评估时，使用SimilarityEvaluator返回NaN,

kzmpq1sx 于 5个月前发布在其他

关注(0)|答案(4)|浏览(58)

描述bug

在使用相似度评估器对evaluate()数据集进行评估时，我遇到了一些情况，结果不是数字。

如何重现bug
模型配置

{azure_deployment= "gpt4-turbo-preview", api_version="2024-02-01"}

jsonl文件

{"Question":"How can you get the version of the Kubernetes cluster?","Answer":"{\"code\": \"kubectl version\" }","output":"{code: kubectl version --output=json}"}

评估配置

result = evaluate(
    data="testdata2.jsonl",
    evaluators={
        "similarity": SimilarityEvaluator(model_config)
    },
    evaluator_config={
        "default": {
            "question": "${data.Question}",
            "answer": "${data.output}",
            "ground_truth": "${data.Answer}"
        }
    }
)

预期行为

返回的值应该是数字

运行信息(请填写以下信息):

使用pf -v的Promptflow包版本：

{
 "promptflow": "1.1.1",
 "promptflow-azure": "1.11.0",
 "promptflow-core": "1.11.0",
 "promptflow-devkit": "1.11.0",
 "promptflow-evals": "0.3.0",
 "promptflow-tracing": "1.11.0"
}

操作系统：Windows 11
使用python --version的Python版本：3.10.11
附加上下文
在_similarity.py中检查实际记录的值表明，实际返回的值是字符串'The'。
我注意到这个问题通常发生在答案与基于问题的LLM响应不匹配的情况下。例如，{Question: What is the capital of France?, Answer: Washington DC, }

promptflow

来源：https://github.com/microsoft/promptflow/issues/3381