与OLA VA在线演示相比，LLaVA 1.6和Ollama的OCR结果不一致,

ldfqzlk8 于 6个月前发布在其他

关注(0)|答案(8)|浏览(46)

你好，我已经在LLaVA repo上发布了这个问题，不确定这个问题是否是Ollama中的实现问题。有什么想法吗？

8条答案

你在使用fp16版本吗？我认为在线演示使用的是模型的未量化版本。

感谢您将问题与Ollama和LLaVA一起发布。在Ollama方面，我的担忧是默认模型使用Mistral,但在更高参数下仅支持的唯一模型使用Vicuna。请参阅Discord以获取更多信息。较低参数的模型支持Vicuna和Mistral。

@easp@donbr感谢你的思考。我在不同的硬件设置上测试了vicuna和mistral版本，它们都产生了相同的问题。这可能与Ollama端的不同实现有关，正如here所指出的？

是的，Lava1.6将图像分割成多个低分辨率图像进行处理，从而提高了其性能。如果没有这个修改(另一个pr仍在等待中),当前实现将无法达到模型的所有性能。

这实际上会极大地改善OCR操作(尝试引起@jmorganca的注意：)

对于错过的更新，我表示歉意。建议我们与llava团队合作，以改进我们的测试场景。我在他们的GitHub上发布了一个相关的讨论项目。

你是否收到了来自@jmorganca的回复？Ollama目前有哪些形式的回归测试用于LLaVA?
我的测试用例是对比LLaVA/OpenAI/Gemini在图像分析方面的能力，以及它们区分狼人和狼人之间的区别的能力。在Ollama上的LLaVA 1.5版本表现一直比其他版本更好，直到1.6版本。

是的，Llava1.6将一张图像分割成多个低分辨率图像进行处理，从而提高了其性能。如果没有这个修改(另一个pr仍在等待中),当前实现可能无法达到模型的所有性能。

这个问题是否已经整合了？
我正在运行最新的Ollama 0.1.38,但仍然看到这个问题：haotian-liu/LLaVA#1497 (评论)
谢谢！