想知道这是否是ollama的bug,我刚刚升级了我的硬件核心,希望能看到token/s略有改善。
从
i7-6700 (avx2 8k基准分)
DDR4 64gb 2133mhz (17GB/s)
升级到
I7-7820x (8c/16t avx512 17k基准分)
DDR4 96GB四通道2600mhz (56GB/s)
新硬件的一切都至少快2倍,再加上avx-512,应该能够提供高达5-6倍的性能。
但是测试模型,我似乎得到了完全相同的token/s性能,实际上没有任何变化,甚至没有1个token/s更高,许多较大的模型仍然为0.9-2 t/s,较小的为5,GPU加速模型的最大速度为24 t/s(最多)。
在如此大的性能飞跃中看不到任何变化似乎令人意外,第一个也是在虚拟机中运行的,主板无法正确处理,没有可调整的条形或任何其他性能改进功能,仅凭这一点就应该有10-20%的改进。
有什么我可以添加到环境变量或类似的东西来解决这个问题吗?
1条答案
按热度按时间deyfvvtc1#
需要更多信息来诊断问题。模型? ollama的版本? GPU类型?
nvidia-smi
的输出或其他监控结果? 推理过程中的CPU负载?vmstat
或iostat
或其他系统统计数据的输出?