你好,@PanQiWei
我想请求支持MPT模型,因为它们是具有商业许可的SOTA。
MPT模型(基础,故事编写者,指导,聊天):
$x_{1e}^{0f}_{1x}$
我在这里找到了一个可能相关的实现:
$x_{1e}^{1f}_{1x}$
这个用户还提供了一个Hugging Face演示,如果它有任何相关性的话:
$x_{1e}^{2f}_{1x}$
qyyhg6bp1#
我尝试实施了这个,但遇到了一些问题,我真的不知道为什么会发生。我可以准备一个PR草案。
eit6fx6z2#
我尝试实施了这个,但遇到了一些问题,我真的不知道为什么会发生。我可以试着创建一个PR草稿。太好了!也许参考仓库会有所帮助。
j2qf4p5b3#
我尝试实施了这个,但遇到了一些问题,我真的不知道为什么会发生。我可以制作一个草稿PR。你检查过速度与llama相比了吗?对于CPU接口,bf16几乎慢了10倍,所以我在想GPU上的速度是否可以接受?
t30tvxxf4#
我尝试实施了这个,但遇到了一些问题,我真的不确定为什么会发生。也许我可以创建一个草稿PR。你检查过与llama的速度比较了吗?对于CPU接口,bf16几乎慢了10倍,所以我在想GPU上的速度是否可以接受?你检查过草稿PR了吗,因为速度大约是0个tokens/s,因为我还没有让它正常工作。
2o7dmzc55#
我对这个也很感兴趣,但遗憾的是,MPTForCausalLM模型目前无法返回所有隐藏层的注意力 - 这是AutoGPTQ进行量化所需的。你可以在site-packages中的modeling_mpt.py文件中找到MPTForCausalLM。
MPTForCausalLM
site-packages
modeling_mpt.py
当前的类并未实现transformers库的所有方面 - 例如,它不支持device_map=True设置,也不支持可以设置为获取注意力的布尔标志output_attentions:https://huggingface.co/mosaicml/mpt-7b/blob/main/modeling_mpt.py#L140我在MPT HF仓库上添加了一个问题,但尚未收到回复:https://huggingface.co/mosaicml/mpt-7b/discussions/30#6468e642b2321e47d3277f26此外,我不确定如何提交PR以在MPTForCausalLM中进行此更改。我认为这不应该很难。
device_map=True
output_attentions
fjaof16o6#
@PanQiWei 这是一个旧问题,但我希望看到一些更新的支持,例如MPT和Falcon。MPT不断推出新的型号,我们现在有30B-8k和7B-8k,所以如果你们能支持这些型号或者给我指明方向的话,我会非常感激的。:)#73尝试添加支持,但不幸的是它不起作用。
zzlelutf7#
@PanQiWei 这是一个旧问题,但我希望能看到一些关于MPT和Falcon模型的更新支持。MPT不断推出新的型号,我们现在有了30B-8k和7B-8k,所以如果你能看一下支持这些型号或者给我指明方向的话,我会非常感激。:)#73尝试添加支持,但不幸的是它不起作用。我已经将PR同步到主分支。你可以尝试使用它们的最新代码看看这些型号是否还能工作。
zqry0prt8#
@PanQiWei 这是一个旧问题,但我希望能看到一些关于MPT和Falcon模型的更新支持。
MPT不断推出新的模型,我们现在有了30B-8k和7B-8k,所以如果你能看一下支持这些模型或者给我指明方向的话,我会非常感激。:)
#73尝试添加支持,但不幸的是它不起作用。
我已经将PR同步到主分支。你可以尝试使用最新的代码看看这些模型是否还能正常工作。
MPT仍然没有直接返回attention_mask,这导致了错误。https://github.com/mosaicml/llm-foundry/blob/main/llmfoundry/models/mpt/modeling_mpt.py#L235
8条答案
按热度按时间qyyhg6bp1#
我尝试实施了这个,但遇到了一些问题,我真的不知道为什么会发生。我可以准备一个PR草案。
eit6fx6z2#
我尝试实施了这个,但遇到了一些问题,我真的不知道为什么会发生。我可以试着创建一个PR草稿。
太好了!也许参考仓库会有所帮助。
j2qf4p5b3#
我尝试实施了这个,但遇到了一些问题,我真的不知道为什么会发生。我可以制作一个草稿PR。
你检查过速度与llama相比了吗?对于CPU接口,bf16几乎慢了10倍,所以我在想GPU上的速度是否可以接受?
t30tvxxf4#
我尝试实施了这个,但遇到了一些问题,我真的不确定为什么会发生。也许我可以创建一个草稿PR。
你检查过与llama的速度比较了吗?对于CPU接口,bf16几乎慢了10倍,所以我在想GPU上的速度是否可以接受?
你检查过草稿PR了吗,因为速度大约是0个tokens/s,因为我还没有让它正常工作。
2o7dmzc55#
我对这个也很感兴趣,但遗憾的是,
MPTForCausalLM
模型目前无法返回所有隐藏层的注意力 - 这是AutoGPTQ进行量化所需的。你可以在site-packages
中的modeling_mpt.py
文件中找到MPTForCausalLM
。当前的类并未实现transformers库的所有方面 - 例如,它不支持
device_map=True
设置,也不支持可以设置为获取注意力的布尔标志output_attentions
:https://huggingface.co/mosaicml/mpt-7b/blob/main/modeling_mpt.py#L140我在MPT HF仓库上添加了一个问题,但尚未收到回复:https://huggingface.co/mosaicml/mpt-7b/discussions/30#6468e642b2321e47d3277f26
此外,我不确定如何提交PR以在
MPTForCausalLM
中进行此更改。我认为这不应该很难。fjaof16o6#
@PanQiWei 这是一个旧问题,但我希望看到一些更新的支持,例如MPT和Falcon。
MPT不断推出新的型号,我们现在有30B-8k和7B-8k,所以如果你们能支持这些型号或者给我指明方向的话,我会非常感激的。:)
#73尝试添加支持,但不幸的是它不起作用。
zzlelutf7#
@PanQiWei 这是一个旧问题,但我希望能看到一些关于MPT和Falcon模型的更新支持。
MPT不断推出新的型号,我们现在有了30B-8k和7B-8k,所以如果你能看一下支持这些型号或者给我指明方向的话,我会非常感激。:)
#73尝试添加支持,但不幸的是它不起作用。
我已经将PR同步到主分支。你可以尝试使用它们的最新代码看看这些型号是否还能工作。
zqry0prt8#
@PanQiWei 这是一个旧问题,但我希望能看到一些关于MPT和Falcon模型的更新支持。
MPT不断推出新的模型,我们现在有了30B-8k和7B-8k,所以如果你能看一下支持这些模型或者给我指明方向的话,我会非常感激。:)
#73尝试添加支持,但不幸的是它不起作用。
我已经将PR同步到主分支。你可以尝试使用最新的代码看看这些模型是否还能正常工作。
MPT仍然没有直接返回attention_mask,这导致了错误。https://github.com/mosaicml/llm-foundry/blob/main/llmfoundry/models/mpt/modeling_mpt.py#L235