IDEFICS: https://huggingface.co/blog/idefics
示例配置:
input_features:
- name: prompt
type: text
- name: img
type: image
output_features:
- name: response
type: text
IDEFICS: https://huggingface.co/blog/idefics
示例配置:
input_features:
- name: prompt
type: text
- name: img
type: image
output_features:
- name: response
type: text
6条答案
按热度按时间gwbalxhn1#
你好,@tgaddair。我想为这个项目做出贡献,你能帮助我理解问题并开始吗?
cnjp1d6j2#
Hi @tgaddair ,我也想解决这个问题,并为项目做出贡献!
icomxhvb3#
感谢@vishnu2411和@yashlondhe90960的帮助!
在查看HuggingFace实现的IdeficsVisionTextToText后,我认为对Ludwig所做的更改不应该太糟糕。主要需要做的事情是将IdeficsProcessor的一些功能拆分出来,以便在Ludwig的预处理阶段独立准备文本输入和图像输入,然后确保在训练/推理过程中正确地将文本和图像输入提供给模型。
具体来说:
AutoTokenizer
对于任何HF模型都应该适用,因此希望文本预处理不需要做任何改变。然而,看起来IdeficsProcessor在这里会在提示中插入一些特殊的占位符,用于表示图像。因此,如果我们在Ludwig的format_data_with_prompt函数中看到配置有一个或多个图像输入特征,那么我们可能需要进行一些类似的操作。出于测试目的,有一个https://huggingface.co/HuggingFaceM4/tiny-random-idefics,它应该允许我们在没有太多开销的情况下在整个CPU上运行所有内容。
听起来可能很多,所以很高兴能开始一个Slack频道、举行一次Zoom会议或合作在一个PR上帮助启动项目!
toiithl64#
这是一些很好的信息@tgaddair,我认为我们可以通过一个松散的频道来讨论这个问题。
yrdbyhpb5#
伟大的@vishnu2411!我认为我们可以在这里从简单开始,尝试为第一个版本添加对使用IdeficsVisionTextToText模型的支持,只需使用字符串(公共)URL。
我为我们创建了一个Slack频道以便在此协作:#p-visual-language-models。
在那里见!
zaq34kh66#
无法加入频道,因为它要求使用@predibase.com域名的电子邮件帐户。