Mixtral 8x22b指令输出为空或乱码。我尝试了各种量化:q4, q4_k_m, q5等。似乎都存在问题。其他模型(例如,llama3, command-r, Mistral等)运行正常。运行2x Nvidia 3090 GPUs = 48gb vram, 4.9 GHz AMD Ryzen 9 5950X, 128gb ram。
Linux
Nvidia
AMD
0.1.48
wsewodh21#
在LM Studio上也进行了测试,运行良好。
zysjyyx42#
我没有相同的设置,但在双3060设置中,模型加载并运行,尽管速度较慢(1.64 tps)。我的怀疑是我们的内存预测和加载了约1个过多的层,导致某种类型的损坏。你能分享你的服务器日志吗?这样我们可以看到内存预测和层计数。你也可以尝试让它加载更少的层,看看是否能正常工作。
% curl http://localhost:11434/api/generate -d '{ "model": "mixtral:8x22b", "prompt": "hello", "stream": false, "options": {"num_gpu": 12 } }'
请确保升级到最新版本。
2条答案
按热度按时间wsewodh21#
在LM Studio上也进行了测试,运行良好。
zysjyyx42#
我没有相同的设置,但在双3060设置中,模型加载并运行,尽管速度较慢(1.64 tps)。
我的怀疑是我们的内存预测和加载了约1个过多的层,导致某种类型的损坏。你能分享你的服务器日志吗?这样我们可以看到内存预测和层计数。你也可以尝试让它加载更少的层,看看是否能正常工作。
请确保升级到最新版本。