The output of `python collect_env.py`
我注意到动态ntk的实现为所有长度重新计算了基础参数,这与transformers的实现不一致?
def _compute_cos_sin_cache(self) -> torch.Tensor:
yshpjwxd1#
是的,我注意到了类似的问题。当前的动态NTK缩放实际上是静态NTK缩放。对于需要处理大量并发请求的模型服务器来说,实现动态NTK可能会变得棘手且低效。
zpgglvta2#
+1
oxf4rvwz3#
3条答案
按热度按时间yshpjwxd1#
是的,我注意到了类似的问题。当前的动态NTK缩放实际上是静态NTK缩放。对于需要处理大量并发请求的模型服务器来说,实现动态NTK可能会变得棘手且低效。
zpgglvta2#
+1
oxf4rvwz3#
+1