由于BERT基于Transformer架构,那么对于已经是一个Transformer的NMT模型,是否还有理由使用BERT嵌入呢?
我认为BERT嵌入是在非常大的语料库上进行训练的,它们可能比与我的NMT模型同时在小规模平行语料库上进行训练的嵌入带来更好的信息。
roejwanj1#
https://openreview.net/forum?id=Hyl7ygStwB
1条答案
按热度按时间roejwanj1#
https://openreview.net/forum?id=Hyl7ygStwB