mlc-llm Phi-3 mini 4k 使用微软的量化技术进行指导,

w51jfk4q 于 5个月前发布在其他

关注(0)|答案(3)|浏览(95)

您可以使用PyTorch的量化工具来实现这一点。首先，您需要将模型转换为量化模型，然后使用torch.quantization.convert()函数将其转换为ONNX格式。接下来，您可以使用ONNX-ML库中的onnx2tf()函数将ONNX模型转换为TensorFlow模型。最后，您可以使用TensorFlow Lite将TensorFlow模型转换为TFLite模型。

来源：https://github.com/mlc-ai/mlc-llm/issues/2273

3条答案

按热度按时间

感谢您的建议，我们仍然专注于进行重大重构以稳定通用部署用例，因此目前无法快速添加新的格式支持。
我认为这是社区努力探索的一个好方向。这里需要的主要是一个加载权重的自定义 loader ,以及一个将加载的权重Map到目标权重的 quantization 方案。

赞(0）回复(0）举报 5个月前

也许需要一个转换器？到目前为止，一般来说贡献者们已经生成了使用GGUF量化的模型，进行了后训练量化。但是如果像微软一样，其他大型供应商开始提供使用GGUF格式的量化感知训练量化权重，那么能够导入它们将会非常棒。

赞(0）回复(0）举报 5个月前

right,将加载器和量化结合起来实际上就相当于你提到的转换器。

赞(0）回复(0）举报 5个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前