你好
你是否考虑在网站上添加一些功能,例如:
- 选择你的GPU(下拉框)。这可以帮助筛选合适的模型。就我个人而言,我有2x4090,所以可以运行70b模型,所以对我来说,也许一个过滤器会显示整个列表(或接近)但对有8gb的人更有用。
- 另外,在顶部为那些不每天阅读模型博客的人添加一个简要说明。
例如,我去找pull phind-codellama。然后我在标签选项卡中发现了49个选项,其中两个是相同的(最新和34b)。此外,据报 prop 有更多训练的v2不是默认值。我需要关心所有这些其他版本吗?取决于我的需求或GPU。好的,我可以按准确性和VRAM过滤吗?比如我能运行的最强大的是什么?或者我可以按速度和准确性过滤吗?等等。
对于很多页面,我想这可能只是一份样板提醒。K、KM、KS是什么意思?等等。数字越小越好还是越大?说实话,我有很多模型,一直在玩LLMs,但我仍然无法跟踪缩写和量化级别是什么。
无论如何,我认为这对很多人来说会非常有帮助。我会自愿帮忙处理这个问题,但显然我没有深入了解所有量化版本的权衡!
5条答案
按热度按时间jfgube3f1#
为了浏览标签,我创建了一个小型用户脚本,让你过滤长长的标签列表:
6kkfgxo02#
我认为理想情况下,你只需要选择你想要运行的量化级别,Ollama会处理剩下的部分;不需要查看不同的标签。在没有你想要的量化级别的模型的情况下,它会回退到不同的量化级别。
话虽如此,目前Ollama对每个模型默认为Q4_0。我们选择这个是因为它在模型性能和大多数人拥有的系统之间取得了不错的平衡(大多数人没有2x4090s!)。
有没有计划将其切换为Q4_K_S作为默认值?考虑到它具有相似的文件大小和速度,但具有更好的困惑度和输出质量(特别是对于7B模型)。
我来这里是说同样的事情——就我所知,q4_0被认为是过时的,而q4_K_S是严格优越的(更好的输出,相同的大小)。我认为在有q4_K_S可用的模型中继续将默认值设置为q4_0是没有意义的。(而且可以说你甚至可能希望将其默认设置为q4_K_M,它略大一些,但通常质量要高得多。但是至少q4_K_S应该是比q4_0成本效益更高的改进。)
vom3gejh3#
好的示例是TheBloke在Huggingface上的。
关于这里,我无法计算模型之间的相关性。
https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF
Ollama中此模型的默认拉取大小为19gb,这个量化级别是多少?它没有任何后缀,但它比Q5、Q6、Q8模型要小,这些模型应该损失更少。19gb模型的损失是多少,为什么它被选为默认版本?文档中有解释过如何选择模型的默认版本吗?
################################
编辑:
我在另一个模型页面上找到了一些信息。我想可能是因为工作量大,团队人数少,所以很抱歉。
示例:
https://ollama.com/library/wizardlm
这个模型页面有我之前提到的简短说明(尽管细节不如TheBloke)。
它解释说Ollama的默认值是4位。
所以如果我有一个更大的GPU,我可以尝试5或6位吗?看看结果如何。
omqzjyyz4#
我们确实需要让用户更容易地避免在不同的量化级别中翻阅数十个潜在的标签。我一直在思考一些不同的方法来实现这一点,希望在未来几周内我们能有成果。
我认为理想情况下,你只需要选择要运行的量化级别,Ollama会处理剩下的部分;无需查看不同的标签。在没有你想要的量化级别的模型的情况下,它会回退到另一个不同的量化级别。
话虽如此,目前Ollama对每个模型默认为Q4_0。我们选择这个是因为它在模型性能和大多数人拥有的系统之间取得了一个不错的平衡(大多数人没有2x4090!)。
nx7onnlm5#
感谢您的回复,非常感激。
Q4是一个很好的媒介,正如您所说,这只是让我花了一些时间去了解你们正在做的事情。我明白了,每天都在做模型,试图跟上进度就像原地踏步一样!