你好,根据文档所述,应用知识蒸馏指定教师模型就可以了。
对于微调训练自己数据集的蒸馏,需要先将教师模型进行单独微调吗?这个蒸馏是离线蒸馏还是直接指定教师模型就可以了?这个蒸馏是在线蒸馏?
请问是否支持CN-CLIPViT-L/14或者CN-CLIPViT-H/14作为教师模型进行知识蒸馏?或者如何修改以支持这些模型?
af7jpaap1#
在我们的实践中,不需要对教师模型进行单独微调就可以获得较好的效果。
我们实践主要是基于离线蒸馏,训练过程只有学生模型的参数是更新的。
如果有需要,可以尝试这种方式进行对比实验。
我们支持使用CN-CLIPViT-L/14或者CN-CLIPViT-H/14作为教师模型进行知识蒸馏,具体使用方法请参考 https://github.com/OFA-Sys/Chinese-CLIP/blob/master/distillation.md修改参数即可。。
tkqqtvp12#
可以使用VIT蒸馏ResNet50吗?这种模型差异较大。
2条答案
按热度按时间af7jpaap1#
在我们的实践中,不需要对教师模型进行单独微调就可以获得较好的效果。
我们实践主要是基于离线蒸馏,训练过程只有学生模型的参数是更新的。
如果有需要,可以尝试这种方式进行对比实验。
我们支持使用CN-CLIPViT-L/14或者CN-CLIPViT-H/14作为教师模型进行知识蒸馏,具体使用方法请参考 https://github.com/OFA-Sys/Chinese-CLIP/blob/master/distillation.md修改参数即可。。
tkqqtvp12#
可以使用VIT蒸馏ResNet50吗?这种模型差异较大。