为什么在 top-k logits上实现核采样?(sample.py中的lines 65-66)我对论文的理解是,阈值应该在所有logits上实现。
sample.py
lines 65-66
uoifb46i1#
在使用sample.py中第36行的nucleus采样实现时,我也遇到了一个bug。由于维度不匹配,tf.where操作失败;似乎min_values需要用vocab_size元素扩展一个额外的维度,以便匹配logits的形状。
tf.where
min_values
vocab_size
logits
1条答案
按热度按时间uoifb46i1#
在使用
sample.py
中第36行的nucleus采样实现时,我也遇到了一个bug。由于维度不匹配,tf.where
操作失败;似乎min_values
需要用vocab_size
元素扩展一个额外的维度,以便匹配logits
的形状。