ollama deepseek-coder-v2-lite flash attention not enabled

elcex8rz 于 5个月前发布在其他

关注(0)|答案(3)|浏览(46)

问题是什么？

当deepseek-coder-v2-lite的上下文长度限制达到时，模型只是重复之前的答案，即使在响应中要求其他内容，它也会一直循环。这个问题在LM Studio中得到了解决，因为启用了flash attention后，这个问题似乎得到了解决，但是在最新的ollama 0.1.48中仍然存在。
我怀疑这是模型本身的问题，但在LM Studio中使用flash attention似乎可以解决这个问题。需要帮助解决Ollama中的这个问题，因为在我看来，在Ollama中运行这个模型只比在没有num_gpu 0的LM Studio更快。
Ollama版本 - 0.1.48
使用的模型 - deepseek-coder-v2-lite-instruct-Q5_K_M

操作系统

macOS

GPU

Apple

CPU

Apple

Ollama版本

0.1.48

ollama

来源：https://github.com/ollama/ollama/issues/5390

3条答案

按热度按时间

izkcnapc1#

您可以通过在环境中设置OLLAMA_FLASH_ATTENTION=1来启用奥拉马的闪光注意力。

赞(0）回复(0）举报 5个月前

xdnvmnnf2#

您可以通过在环境中设置OLLAMA_FLASH_ATTENTION=1来启用ollama的闪光灯注意力。
尝试以下操作并重新启动ollama,似乎不起作用。也许deepseek-coder-v2在ollama中为这个模型架构自动关闭了闪光灯注意力？不确定。

launchctl setenv OLLAMA_FLASH_ATTENTION 1

赞(0）回复(0）举报 5个月前

fhity93d3#

这是一个与llama.cpp相关的问题，当K和V头不同时，它会关闭flash注意力。

赞(0）回复(0）举报 5个月前

我来回答

ollama deepseek-coder-v2-lite flash attention not enabled

问题是什么？

操作系统

GPU

CPU

Ollama版本

3条答案

相关问题

热门标签

最新问答