您好,看到最新更新了知识蒸馏的功能,是否有蒸馏前后指标对比说明啊?
c9x0cxw01#
数值指标是在公司内部数据上进行的,确实不方便公开,也不具有广泛的参考价值。但针对特定领域,例如电商图文领域,在小模型上是有显著提升的。
4szc88ey2#
在说明界面,指明本次实验的support数据集有10万电商数据量(包括鞋子、衣服、裤子等物品)。实际训练时仅用10w数据。
vwoqyblh3#
10万是用作最后测试的数据集大小,预训练采用的是chineseclip的预训练,微调大约有千万量级的数据对。
ua4mk5z44#
这个对比图也有点疑问:1、这个是先检测后调用的模型?2、我们有试用蒸馏resnet50 吗?3、我看我们不同模型最终特征的维度不一样,也可以蒸馏吗resnet50 1024、ViT-B-16 512, ViT-L-14 768?
x4shl7ld5#
10万是用作最后测试的数据集大小,预训练采用的是chineseclip的预训练,微调大约有千万量级的数据对。淘宝的商品标题会堆叠很多词语,不想muge数据集那样简介,直接微调是否会导致性能下降?
5条答案
按热度按时间c9x0cxw01#
数值指标是在公司内部数据上进行的,确实不方便公开,也不具有广泛的参考价值。但针对特定领域,例如电商图文领域,在小模型上是有显著提升的。
4szc88ey2#
在说明界面,指明本次实验的support数据集有10万电商数据量(包括鞋子、衣服、裤子等物品)。实际训练时仅用10w数据。
vwoqyblh3#
10万是用作最后测试的数据集大小,预训练采用的是chineseclip的预训练,微调大约有千万量级的数据对。
ua4mk5z44#
这个对比图也有点疑问:
1、这个是先检测后调用的模型?
2、我们有试用蒸馏resnet50 吗?
3、我看我们不同模型最终特征的维度不一样,也可以蒸馏吗resnet50 1024、ViT-B-16 512, ViT-L-14 768?
x4shl7ld5#
10万是用作最后测试的数据集大小,预训练采用的是chineseclip的预训练,微调大约有千万量级的数据对。
淘宝的商品标题会堆叠很多词语,不想muge数据集那样简介,直接微调是否会导致性能下降?