问题是什么?
当deepseek-coder-v2-lite的上下文长度限制达到时,模型只是重复之前的答案,即使在响应中要求其他内容,它也会一直循环。这个问题在LM Studio中得到了解决,因为启用了flash attention后,这个问题似乎得到了解决,但是在最新的ollama 0.1.48中仍然存在。
我怀疑这是模型本身的问题,但在LM Studio中使用flash attention似乎可以解决这个问题。需要帮助解决Ollama中的这个问题,因为在我看来,在Ollama中运行这个模型只比在没有num_gpu 0的LM Studio更快。
Ollama版本 - 0.1.48
使用的模型 - deepseek-coder-v2-lite-instruct-Q5_K_M
操作系统
macOS
GPU
Apple
CPU
Apple
Ollama版本
0.1.48
3条答案
按热度按时间izkcnapc1#
您可以通过在环境中设置
OLLAMA_FLASH_ATTENTION=1
来启用奥拉马的闪光注意力。xdnvmnnf2#
您可以通过在环境中设置
OLLAMA_FLASH_ATTENTION=1
来启用ollama的闪光灯注意力。尝试以下操作并重新启动ollama,似乎不起作用。也许deepseek-coder-v2在ollama中为这个模型架构自动关闭了闪光灯注意力?不确定。
fhity93d3#
这是一个与llama.cpp相关的问题,当K和V头不同时,它会关闭flash注意力。