我有一个多标签文本分类任务。训练数据标签是可能作为标记存在于训练数据文本中的类别。例如,一些观察结果如下所示:
Train=[["input": "Dogs are animals. Dogs ove humans.", class: ["dog"]],
["input": "Cats are running in the street.", class: ["cat"]],
["input": "Cats and dogs live with humans.", class: ["cat", "dog"]],
["input": "These animals don't each chocolate.", class: ["dog"]]]
我想通过使用Pytorch微调语言模型来训练一个分类器。我的问题是,我是否必须确保在训练输入文本中屏蔽类标签?如果不是,分类器是否会过拟合或失去泛化能力?
如果我必须屏蔽输入中的标签,我如何使用Pytorch来实现呢?
1条答案
按热度按时间enyaitl31#
首先,标签将被Map为连续整数,因此模型不知道文本包含标签。
其次,你说得对,狗标签高概率模型会更关注文本中的狗字,但不是因为文本中包含标签,而是一个特征。
最后,如果想让模型学习更多与标签词无关的特征,不要使用MASK,用其他标签词代替,目前是一个很好的解决方案,参考MABEL: Attenuating Gender Bias using Textual Entailment Data