要使用Twilio进行实时转录,您需要使用第三方Speech To Text with Twilio Media Streams,该第三方Speech To Text还支持流式/无限语音到文本识别,如Google Cloud Speech To Text。不幸的是,我不认为有一个原生的Twilio动词或动作可以进行实时语音到文本/实时转录。也许您可以在iOS上运行一些东西,但我认为有一个后端服务器来处理这个问题可能会更好,而且在未来更容易扩展。 在高级别上,您需要执行以下操作:
创建一个WebSocket端点,以接收Twilio Media Streams,用于传入音频字节有效负载。这些有效负载是电话语音的base 64编码
2条答案
按热度按时间nkcskrwz1#
我是Twilio布道者
所以,你可以在
<Record>
verb上使用timeout
属性来获取短的“突发”语音文本,但这可能意味着你在呼叫者说话的时候超时了。所以你只能得到一半!这可能会让你很难破译正在说的话,我个人不会使用这种方法。您可以使用
finishOnKey
属性按下按键(Doppler音)结束录制,这可能有助于您的需求。您目前无法获得实时或接近实时的转录。您将很快收到转录,但我们只支持超时和按键以结束录制并开始转录。
希望这对你有帮助!
dtcbnfnu2#
要使用Twilio进行实时转录,您需要使用第三方Speech To Text with Twilio Media Streams,该第三方Speech To Text还支持流式/无限语音到文本识别,如Google Cloud Speech To Text。不幸的是,我不认为有一个原生的Twilio动词或动作可以进行实时语音到文本/实时转录。也许您可以在iOS上运行一些东西,但我认为有一个后端服务器来处理这个问题可能会更好,而且在未来更容易扩展。
在高级别上,您需要执行以下操作:
Twilio自己就如何做到这一点创建了几个不同的指南:
我花了一些时间熟悉这些指南,并制作了一个类似的live transcription guide in Java using Dropwizard framework(由我自己编写)
这些方法将用于概念验证,但不涵盖与音频流处理的安全性或缩放相关的领域。