问题是什么?
我通过docker运行ollama,一切都运行得很顺利,但是视觉模型有问题。
我尝试了llava
和bakllava
,但都没有成功。
你期望看到什么?
我提供的镜像的描述。
重现步骤
使用docker运行ollama示例,拉取llava或bakllava的最新模型。
进行查询测试,就像在https://github.com/ollama/ollama/blob/main/docs/api.md#request-with-images中那样。答案并不如预期,总是随机的,例如:
{
"model": "llava",
"created_at": "2024-03-24T05:02:22.859351985Z",
"response": " The image shows a person sitting at a table with some papers or documents. The focus is on the person's face, which appears to be in deep thought or concentration. There are no other discernable objects or details in the picture. ",
"done": true,
"context": [...
尝试了llava和bakllava,其他每个模型似乎都能正常工作。我尝试了最高质量和简单内容图像。
是否最近有更改引入了这个问题?
- 无响应*
OS
Linux
架构
arm64
平台
Docker
Ollama版本
ollama版本是0.1.28
GPU
- 无响应*
GPU信息
- 无响应*
CPU
- 无响应*
其他软件
- 无响应*
7条答案
按热度按时间u5rb5r591#
这可能是#3298的重复问题。我在我的Mac上本地运行llava时遇到了相同的问题。
0s7z1bwu2#
这可能是重复的问题。我在本地的Mac上运行llava时遇到了相同的问题。
我看到了这个问题,但我打开了这个,因为它似乎是一个不同的问题:
首先,我正在通过REST API进行实验,其次,似乎有一个下采样的问题。
无论如何,谢谢你链接那个问题,它们可能相关。
ujv3wf0j3#
我无法复现这个问题。使用链接中的例子,这是我得到的结果:
这里是参考的图片,从base64输入解码得到:
虽然它不是完美的,但它与LLaVA demo一致,后者使用了更大的模型(34b vs. mistral 7b):
r6hnlfcb4#
@mxyng ,对我来说,最简单的复现这个问题的方法是给Lava提供一个包含大量文本的大型文档。很明显,部署在网络上的演示版本能够读取和解释图像中的文本。而Lava的Ollama版本则要么对文档内容撒谎,要么只能读取页面上最大的标题,然后声称无法阅读更详细的内容,因为文本“模糊”。这表明它无法解释页面上的文本。
示例图片:这个LLaVa 1.6摘要
示例结果来自 https://llava.hliu.cc/
示例结果来自Ollama
igsr9ssn5#
我可以在这里复现这个:
来源是:
tmb3ates6#
有人成功解决了这个问题吗?据说Ollama 0.1.34版本解决了这个问题,但对我来说并非如此。
kuhbmx9i7#
我使用ollama 0.1.38和llava-llama-3-8b-v1.1设置了这个。我按照模型卡上的说明操作,并使用了int4模型。
我将上面的llama图像请求 curl ,这是响应:
我也收到了针对每张图片的通用和随机回复(通常描述咖啡和咖啡馆),但我的问题是我忘记在我的模型文件中包含
mmproj
文件。现在llava正在为我处理ollama,两个文件都已到位。