DeepSpeed-MII 支持Salesforce/CodeGen

quhf5bfb  于 4个月前  发布在  其他
关注(0)|答案(2)|浏览(141)

当前,https://huggingface.co/Salesforce/codegen-16B-multi及更小变体不受支持。
这似乎是一种标准的文本生成变压器,可能是因为在SUPPORTED_MODEL_TYPES中的模型类型限制,它还没有起作用?
这与任何支持的模型类型都不匹配:https://huggingface.co/api/models?filter=codegen&full=true

yks3o0rb

yks3o0rb1#

你好,@andrePankraz ,你是对的,我们这里没有这些模型。
然而,我刚刚用一个本地修改过的MII进行了测试,跳过了这个检查,你链接的模型确实可以工作。@jeffra@RezaYazdaniAminabadi ,有什么原因不把codegen模型添加到我们的支持模型中呢?至少,添加一个选项来跳过MII兼容性检查可能是值得的。

zlwx9yxi

zlwx9yxi2#

从内核加速的Angular 来看,我们支持GPT-J。我记得有一种方法可以将这个代码生成模型转换为GPT-J模型。短期内,你可以尝试一下?然而,从中期来看,我认为我们可以调整我们的注入策略来支持这种模型。但我们需要进一步调查。

如果你不需要内核加速,可以通过一个新的Mii配置选项关闭模型检查:skip_model_check: true
DeepSpeed-MII/mii/config.py
第17行 https://twitter.com/moyix/status/1551608934091341828?s=46&t=00FUkiOvSQ9s7sPwtFbDwA
| | skip_model_check: bool=False |

相关问题