mixtral:8x7b-instruct-v0.1-fp16在Ollama上的表现比在相同配置下使用vllm服务的相同模型要差,

ylamdve6  于 6个月前  发布在  其他
关注(0)|答案(5)|浏览(60)

你好,我比较了使用ollama和vllm平台在未量化mixtral:8x7b-instruct-v0.1-fp16上进行推理的速度。我将延迟设置为0,并设置了相同数量的生成令牌,但在ollama上运行的混合模型性能非常差。我还检查了在ollama上的提示中是否添加了[INST]和[/INST],与vllm相同。但模型仍然表现不佳。值得注意的是,ollama仅使用2个A6000 GPU(每个具有48G内存),而vllm和Hugging Face需要4个GPU来处理未量化的混合8x7b模型。这让我想知道ollama是否应用了任何形式的实时量化?

vhmi4jdf

vhmi4jdf1#

你好,@yilei-ding。你正在使用哪个操作系统运行Ollama?你的RAM内存有多少?你能分享一个提示或脚本来运行多个提示吗?这样我们就可以复制这个问题了。

nsc4cvqm

nsc4cvqm2#

你好,@yilei-ding,你尝试过0.1.31版本吗?你能分享一下你的RAM、CPU、操作系统和脚本吗?为了尝试重现这个问题。如果没有更多的消息并且没有其他用户报告相同的问题,那么这个问题可能会被关闭。

h79rfbju

h79rfbju3#

你能分享一下你的vllm配置和命令行吗?

mwngjboj

mwngjboj4#

@yilei-ding,mixtral:8x7b-instruct-v0.1-fp16模板略有出入(模板开头多了一个空格),这可能导致结果不佳。我刚刚更新了模板,所以你可能想再试试。
Ollama不会实时进行量化,但大约一个月前,转换脚本发生了变化,改变了moes的转换方式(具体来说,它以不同的方式将Maven们组合在一起,包括up/down/gate注意力层)。我会尝试一下,看看是否有性能差异。

wkyowqbh

wkyowqbh5#

好的,我已经重新转换了fp16版本,两者的性能相当。
在新版本上,我得到:

total duration:       1m28.047026667s
load duration:        2.070959ms
prompt eval count:    13 token(s)
prompt eval duration: 3.371297s
prompt eval rate:     3.86 tokens/s
eval count:           1132 token(s)
eval duration:        1m24.670792s
eval rate:            13.37 tokens/s

mixtral:8x7b-instruct-v0.1-fp16上,我得到:

total duration:       1m20.200884042s
load duration:        4.080167ms
prompt eval count:    13 token(s)
prompt eval duration: 3.398857s
prompt eval rate:     3.82 tokens/s
eval count:           1031 token(s)
eval duration:        1m16.795729s
eval rate:            13.43 tokens/s

所以实际上两者之间的转换没有区别。我认为可能发生的事情是某些任务被卸载到CPU上?当你加载模型时,能否更新你的ollama版本并尝试新的ollama ps命令?如果正确地加载到GPU上,它应该显示为100% GPU

相关问题