ludwig 使用Python API从内存中对单个音频数据点进行预测,

iqih9akk  于 2个月前  发布在  Python
关注(0)|答案(2)|浏览(34)

你好,

我想构建一个应用程序,从麦克风音频流中获取音频数据,并使用预训练的ludwig模型对1秒音频片段进行实时预测,分为2个类别。据我所知,只能使用文件系统中保存的文件来预测音频数据。为了实现实时预测,如果有一种方法可以将单个Python对象或wav编码字节输入到模型中,并让模型一次预测一个音频片段对应的类别,那么速度会快得多。在ludwig中是否有尽可能少的开销的方法可以做到这一点?

最好的祝愿,
彼得

eulz3vhy

eulz3vhy1#

@ Peetee06 ,很遗憾目前还不能实现这个功能,但我完全同意你的观点,这是一个非常需要的功能。对于图像特征,我们也有一个类似的问题,因为它们的行为相似(目前都是从文件中读取)。
在完成一些内部重构工作后,我们会将这个功能作为优先级任务。
与此同时,正如你已经发现的那样,解决方法是将内容保存到一个临时目录中的音频文件中,然后Ludwig会将其加载回来,这样就避免了明显的开销。

j8ag8udp

j8ag8udp2#

@w4nderlust期待这个功能。在您建议的时间内,我会使用解决方法。
感谢您在Ludwig上的出色工作!:)

相关问题