langchain4j [特性] 支持多模态模型的音频、视频和富格式支持

bnlyeluc  于 4个月前  发布在  其他
关注(0)|答案(2)|浏览(47)

Gemini等模型支持输入文本和图像,但也支持其他格式,如音频、视频或PDF文件。本票据的目标是为音频、视频和富格式文件添加支持,从Gemini开始进行实验。

ct3nt3jp

ct3nt3jp1#

你好,Guillaume,这太棒了。
我正在为Azure Open AI开发音频支持。如果我们能使用相同的音频模型,用户就可以轻松地在它们之间切换。我会尽快添加你(希望几个小时后),如果你更快的话,我很乐意使用/增强你的实现。

jaxagkaj

jaxagkaj2#

哦,刚刚看到你的评论@SandraAhlgrimm。
我根据与ImageImageContent相同的结构添加了Audio/AudioContentVideo/VideoContent类。
我已经将它们添加到了#1464中。

相关问题