从图可以看到,在做文字识别后处理的时候,进行文字去重时,保留的重复项是得分为0.56的,而0.99反而没有保留,导致计算这行文字的得分最终得分较低。
shyt4zoc1#
改成这样,准确率明显提高了不少
ui7jx7zq2#
@LDOUBLEV@WenmuZhou 大佬帮忙看看,可以这样改吗?
72qzrwbm3#
你好,这样只是得分变了呀?但是识别的字还是之前的那个字啊
6fe3ivhb4#
是的,根据官方代码,默认只获取第一个重复项,但没考虑重复项得分是不一样的,会导致明明识别是正确的,但最终得分却异常低。不知道是不是个bug,大佬还没给回应。
mpbci0fu5#
你好,在paddleocr系统里面,没有考虑识别结果得分,所以这里优先关注了结果,比较得分的耗时可以被节省掉,如果你对识别结果得分非常关注的话,可以改成上面的形式,但是可能会增加后处理的耗时。
nvbavucw6#
好的,了解了,经过测试,基本不会增加什么耗时。
6条答案
按热度按时间shyt4zoc1#
改成这样,准确率明显提高了不少
ui7jx7zq2#
@LDOUBLEV@WenmuZhou 大佬帮忙看看,可以这样改吗?
72qzrwbm3#
你好,这样只是得分变了呀?但是识别的字还是之前的那个字啊
6fe3ivhb4#
你好,这样只是得分变了呀?但是识别的字还是之前的那个字啊
是的,根据官方代码,默认只获取第一个重复项,但没考虑重复项得分是不一样的,会导致明明识别是正确的,但最终得分却异常低。不知道是不是个bug,大佬还没给回应。
mpbci0fu5#
你好,在paddleocr系统里面,没有考虑识别结果得分,所以这里优先关注了结果,比较得分的耗时可以被节省掉,如果你对识别结果得分非常关注的话,可以改成上面的形式,但是可能会增加后处理的耗时。
nvbavucw6#
你好,在paddleocr系统里面,没有考虑识别结果得分,所以这里优先关注了结果,比较得分的耗时可以被节省掉,如果你对识别结果得分非常关注的话,可以改成上面的形式,但是可能会增加后处理的耗时。
好的,了解了,经过测试,基本不会增加什么耗时。