如果我使用两个相同的模型来学习一个数据集,但是样本呈现的顺序不同,嵌入层会输出精确的嵌入吗?
rjee0c151#
我认为你不会得到精确的嵌入。嵌入的参数取决于gradient decent如何选择它们,因此当样本批次顺序不同时,您可能会得到不同的值。此外,存在用于嵌入层的初始随机权重初始化,这也可能有助于差异。但是,我希望在一个嵌入中接近的两个单词在另一个嵌入中也会接近。
1条答案
按热度按时间rjee0c151#
我认为你不会得到精确的嵌入。嵌入的参数取决于gradient decent如何选择它们,因此当样本批次顺序不同时,您可能会得到不同的值。此外,存在用于嵌入层的初始随机权重初始化,这也可能有助于差异。
但是,我希望在一个嵌入中接近的两个单词在另一个嵌入中也会接近。