在预训练过程中,计算损失时是否忽略了[CLS]标记?如果是这种情况,那不意味着我的模型会预测一个随机标记而不是[CLS]吗?
oxalkeyp1#
在预训练阶段,[CLS]表示被输入到二元分类器中,该分类器预测句子对<A,B>是否为并列句。50%的时间里,<A,B>实际上是大语料库中的下一个句子,而另外50%的时间里,B是从大语料库的其他文档中随机选择的一个句子,因此不是一个有效的延续句A。例如:<Delhi is capital of India. Penguins don't fly>。
h79rfbju2#
这对于RoBERTa仍然有效吗?RoBERTa如何处理这个标记?
2条答案
按热度按时间oxalkeyp1#
在预训练阶段,[CLS]表示被输入到二元分类器中,该分类器预测句子对<A,B>是否为并列句。50%的时间里,<A,B>实际上是大语料库中的下一个句子,而另外50%的时间里,B是从大语料库的其他文档中随机选择的一个句子,因此不是一个有效的延续句A。例如:<Delhi is capital of India. Penguins don't fly>。
h79rfbju2#
这对于RoBERTa仍然有效吗?
RoBERTa如何处理这个标记?