python 如何推理ML音频模型来实现音频的真实的读取和实时预测？

bvjxkvbb 于 2023-02-15 发布在 Python

关注(0)|答案(1)|浏览(118)

我正在尝试实时预测音频模式。
我以前开发过一个多类分类模型，在输出层有4个类，下面的实现可以很好地实现，我读取一个音频文件，然后将其传递给模型进行预测：

y, sr = librosa.load('/Users/akellaniranjan/MyWorkspace/Projects/Hobby_Projects/Whistle_Based_Automation/Folder_Approach/Test/Led_off.wav',sr = 44100)  
ps = librosa.feature.melspectrogram(y=y, sr=sr)
ps = ps[:,:128]
ps = ps[np.newaxis,...,np.newaxis]
predict = model.predict(ps)
predict_array = np.argmax(predict, axis=1)
predict_array = predict_array.tolist()
if predict_array[0]==3:print('Led_ON')
elif predict_array[0]==2: print('Led_OFF')
elif predict_array[0]==1: print('Fan_ON')
elif predict_array[0]==0: print('Fan_OFF')

模型的输入维度为（1，128，128）。
但现在我想实时推断模型，我想连续从麦克风读取音频并将其传递给音频模型，以便它可以无限地实时预测输出。
你能帮我一下吗？

python

来源：https://stackoverflow.com/questions/74155898/how-to-inference-ml-audio-model-to-read-audio-in-real-time-and-predict-in-real-t