Chinese-CLIP 为什么使用相同的词和图片得到的结果不一致?

chhkpiq4  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(84)

翻译结果为:

词:天空, 栏杆, 女人, 火车站, 火车, 人们
图片地址: https://images.pexels.com/photos/20147042/pexels-photo-20147042.jpeg?cs=srgb&dl=pexels-mateus-castro-20147042.jpg&fm=jpg
测试API:
https://huggingface.co/spaces/OFA-Sys/chinese-clip-zero-shot-image-classification 使用的base
https://huggingface.co/OFA-Sys/chinese-clip-vit-base-patch16
本地跑和上面俩API,这三个结果都不一样。

本地:[('栏杆', 0.507383406162262), ('女人', 0.44152918457984924), ('人们', 0.02036505565047264), ('天空', 0.019294271245598793), ('火车站', 0.010599039494991302), ('火车', 0.0008290574769489467)]

ojsjcaue

ojsjcaue1#

@learning233@JianxinMa@yangapku@jxst539246@manymuch

6fe3ivhb

6fe3ivhb2#

在本地预测时,不要进行梯度计算,使用with torch.no_grad():

相关问题