AutoGPTQ GPTQ支持MPT模型

e5njpo68  于 5个月前  发布在  其他
关注(0)|答案(8)|浏览(67)

你好,@PanQiWei

我想请求支持MPT模型,因为它们是具有商业许可的SOTA。

MPT模型(基础,故事编写者,指导,聊天):

$x_{1e}^{0f}_{1x}$

我在这里找到了一个可能相关的实现:

$x_{1e}^{1f}_{1x}$

这个用户还提供了一个Hugging Face演示,如果它有任何相关性的话:

$x_{1e}^{2f}_{1x}$

qyyhg6bp

qyyhg6bp1#

我尝试实施了这个,但遇到了一些问题,我真的不知道为什么会发生。我可以准备一个PR草案。

eit6fx6z

eit6fx6z2#

我尝试实施了这个,但遇到了一些问题,我真的不知道为什么会发生。我可以试着创建一个PR草稿。
太好了!也许参考仓库会有所帮助。

j2qf4p5b

j2qf4p5b3#

我尝试实施了这个,但遇到了一些问题,我真的不知道为什么会发生。我可以制作一个草稿PR。
你检查过速度与llama相比了吗?对于CPU接口,bf16几乎慢了10倍,所以我在想GPU上的速度是否可以接受?

t30tvxxf

t30tvxxf4#

我尝试实施了这个,但遇到了一些问题,我真的不确定为什么会发生。也许我可以创建一个草稿PR。
你检查过与llama的速度比较了吗?对于CPU接口,bf16几乎慢了10倍,所以我在想GPU上的速度是否可以接受?
你检查过草稿PR了吗,因为速度大约是0个tokens/s,因为我还没有让它正常工作。

2o7dmzc5

2o7dmzc55#

我对这个也很感兴趣,但遗憾的是,MPTForCausalLM模型目前无法返回所有隐藏层的注意力 - 这是AutoGPTQ进行量化所需的。你可以在site-packages中的modeling_mpt.py文件中找到MPTForCausalLM

当前的类并未实现transformers库的所有方面 - 例如,它不支持device_map=True设置,也不支持可以设置为获取注意力的布尔标志output_attentions:https://huggingface.co/mosaicml/mpt-7b/blob/main/modeling_mpt.py#L140
我在MPT HF仓库上添加了一个问题,但尚未收到回复:https://huggingface.co/mosaicml/mpt-7b/discussions/30#6468e642b2321e47d3277f26
此外,我不确定如何提交PR以在MPTForCausalLM中进行此更改。我认为这不应该很难。

fjaof16o

fjaof16o6#

@PanQiWei 这是一个旧问题,但我希望看到一些更新的支持,例如MPT和Falcon。
MPT不断推出新的型号,我们现在有30B-8k7B-8k,所以如果你们能支持这些型号或者给我指明方向的话,我会非常感激的。:)
#73尝试添加支持,但不幸的是它不起作用。

zzlelutf

zzlelutf7#

@PanQiWei 这是一个旧问题,但我希望能看到一些关于MPT和Falcon模型的更新支持。
MPT不断推出新的型号,我们现在有了30B-8k7B-8k,所以如果你能看一下支持这些型号或者给我指明方向的话,我会非常感激。:)
#73尝试添加支持,但不幸的是它不起作用。
我已经将PR同步到主分支。你可以尝试使用它们的最新代码看看这些型号是否还能工作。

zqry0prt

zqry0prt8#

@PanQiWei 这是一个旧问题,但我希望能看到一些关于MPT和Falcon模型的更新支持。

MPT不断推出新的模型,我们现在有了30B-8k7B-8k,所以如果你能看一下支持这些模型或者给我指明方向的话,我会非常感激。:)

#73尝试添加支持,但不幸的是它不起作用。

我已经将PR同步到主分支。你可以尝试使用最新的代码看看这些模型是否还能正常工作。

MPT仍然没有直接返回attention_mask,这导致了错误。https://github.com/mosaicml/llm-foundry/blob/main/llmfoundry/models/mpt/modeling_mpt.py#L235

相关问题