BERT在论文《BERT:预训练深度双向Transformer用于自然语言理解》中有描述。RoBERTa在论文《RoBERTa:一种鲁棒优化的BERT预训练方法》中有描述。现在已经过去了3年。有没有在大多数任务中超越它们的预训练语言模型(在相同的或附近的资源下)?不降低准确性的加速也被认为是更好的。
xt0899hw1#
you should use Albert xlargehttps://mlcom.github.io/Create-Language-Model/
1条答案
按热度按时间xt0899hw1#
you should use Albert xlarge
https://mlcom.github.io/Create-Language-Model/