功能描述
请详细描述您尝试做什么,以及您希望llama.cpp
作为增强功能能做什么。
动机
听起来这是一种快速/有效的量化方法:
- https://towardsdatascience.com/exllamav2-the-fastest-library-to-run-llms-32aeda294d26
- https://github.com/mlabonne/llm-course/blob/main/Quantize_models_with_ExLlamaV2.ipynb
- https://towardsdatascience.com/4-bit-quantization-with-gptq-36b0f4f02c34
- https://huggingface.co/blog/gptq-integration
- https://oobabooga.github.io/blog/posts/gptq-awq-exl2-llamacpp/
- 对GPTQ、AWQ、EXL2、q4_K_M、q4_K_S和load_in_4bit之间的详细比较:困惑度、VRAM、速度、模型大小和加载时间。
2条答案
按热度按时间i5desfxk1#
Bump
gwbalxhn2#
不支持gptq和awq?