是否可以使用中间层输出并生成文本,而忽略顶部的层?基本上,我想检查生成的质量,因为我们继续添加更多的层。在src/sample.py脚本中,我必须做什么修改?谢谢。
src/sample.py
6xfqseft1#
我做过一次实验,改变头部和层的数量。对于345 M,最佳的似乎是模型集的数量。我认为它是2的倍数,但我不确定了,因为我不记得了。只要覆盖从模型读取的数据。提示:在代码中搜索hparams.n_ctx并检查模型配置文件。然而,在我看来,最好只玩温度或logits(多样性)。
1条答案
按热度按时间6xfqseft1#
我做过一次实验,改变头部和层的数量。对于345 M,最佳的似乎是模型集的数量。我认为它是2的倍数,但我不确定了,因为我不记得了。只要覆盖从模型读取的数据。提示:在代码中搜索hparams.n_ctx并检查模型配置文件。
然而,在我看来,最好只玩温度或logits(多样性)。