在迁移学习过程中,我们使用一个预先训练好的网络和一些观测对(输入和标记),并使用这些数据通过使用反向传播来微调权重。然而,在一次/几次学习期间,根据这篇论文-“语言模型是几次学习器”(https://arxiv.org/pdf/2005.14165.pdf),“不执行梯度更新”。那么在一次/几次拍摄学习过程中,像GPT 2和GPT 3这样的模型会发生什么变化?
在迁移学习过程中,我们使用一个预先训练好的网络和一些观测对(输入和标记),并使用这些数据通过使用反向传播来微调权重。然而,在一次/几次学习期间,根据这篇论文-“语言模型是几次学习器”(https://arxiv.org/pdf/2005.14165.pdf),“不执行梯度更新”。那么在一次/几次拍摄学习过程中,像GPT 2和GPT 3这样的模型会发生什么变化?
2条答案
按热度按时间mcdcgff01#
那么在单次/少次学习过程中,GPT 2和GPT 3等型号会发生什么变化?
模型完全没有变化,模型不会学习任何可保存的东西,他们所做的只是将“训练样本”作为上下文提供给模型,模型在上下文结束时生成输出。(Brown,Tom B.,et al.“Language models are few-shot learner."(2020).)* 示出了用于微调、零镜头学习和少镜头学习的输入的示例。
如你所见,训练样本是输入的一部分,每次预测时都必须给出,因此模型没有发生变化。x1c 0d1xBrown,Tom B.,et al.“Language models are few-shot learner."(2020)
z9ju0rcb2#
您可能会认为存在一些变化,因为在训练次数较少的情况下,模型会返回更好的结果。但是,它是相同的模型,但具有不同的上下文作为输入。GPT-2和GPT-3都是自回归模型,这意味着输出还取决于上下文。更多的示例意味着上下文更清晰,因此获得所需结果的机会也会增加。