langchain4j [特性] 支持多模态模型的音频、视频和富格式支持

bnlyeluc 于 4个月前发布在其他

关注(0)|答案(2)|浏览(47)

Gemini等模型支持输入文本和图像，但也支持其他格式，如音频、视频或PDF文件。本票据的目标是为音频、视频和富格式文件添加支持，从Gemini开始进行实验。

来源：https://github.com/langchain4j/langchain4j/issues/1463

2条答案

按热度按时间

你好，Guillaume,这太棒了。
我正在为Azure Open AI开发音频支持。如果我们能使用相同的音频模型，用户就可以轻松地在它们之间切换。我会尽快添加你(希望几个小时后),如果你更快的话，我很乐意使用/增强你的实现。

赞(0）回复(0）举报 4个月前

哦，刚刚看到你的评论@SandraAhlgrimm。
我根据与Image和ImageContent相同的结构添加了Audio/AudioContent和Video/VideoContent类。
我已经将它们添加到了#1464中。

赞(0）回复(0）举报 4个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 3个月前