您可以使用PyTorch的量化工具来实现这一点。首先,您需要将模型转换为量化模型,然后使用torch.quantization.convert()函数将其转换为ONNX格式。接下来,您可以使用ONNX-ML库中的onnx2tf()函数将ONNX模型转换为TensorFlow模型。最后,您可以使用TensorFlow Lite将TensorFlow模型转换为TFLite模型。
b4wnujal1#
感谢您的建议,我们仍然专注于进行重大重构以稳定通用部署用例,因此目前无法快速添加新的格式支持。我认为这是社区努力探索的一个好方向。这里需要的主要是一个加载权重的自定义 loader ,以及一个将加载的权重Map到目标权重的 quantization 方案。
qc6wkl3g2#
也许需要一个转换器?到目前为止,一般来说贡献者们已经生成了使用GGUF量化的模型,进行了后训练量化。但是如果像微软一样,其他大型供应商开始提供使用GGUF格式的量化感知训练量化权重,那么能够导入它们将会非常棒。
ghhkc1vu3#
right,将加载器和量化结合起来实际上就相当于你提到的转换器。
3条答案
按热度按时间b4wnujal1#
感谢您的建议,我们仍然专注于进行重大重构以稳定通用部署用例,因此目前无法快速添加新的格式支持。
我认为这是社区努力探索的一个好方向。这里需要的主要是一个加载权重的自定义 loader ,以及一个将加载的权重Map到目标权重的 quantization 方案。
qc6wkl3g2#
也许需要一个转换器?到目前为止,一般来说贡献者们已经生成了使用GGUF量化的模型,进行了后训练量化。但是如果像微软一样,其他大型供应商开始提供使用GGUF格式的量化感知训练量化权重,那么能够导入它们将会非常棒。
ghhkc1vu3#
right,将加载器和量化结合起来实际上就相当于你提到的转换器。