ios 有没有可能在你说话的时候录下Twilio的电话?

llmtgqce  于 12个月前  发布在  iOS
关注(0)|答案(2)|浏览(119)

有没有人知道Twilio是否可以在通话过程中基于一种音频标志或模式创建多个音频记录,例如沉默。这样你就可以在通话过程中在每个语音部分的末尾触发回调来生成文本。
谢谢...

nkcskrwz

nkcskrwz1#

我是Twilio布道者
所以,你可以在<Record> verb上使用timeout属性来获取短的“突发”语音文本,但这可能意味着你在呼叫者说话的时候超时了。所以你只能得到一半!这可能会让你很难破译正在说的话,我个人不会使用这种方法。
您可以使用finishOnKey属性按下按键(Doppler音)结束录制,这可能有助于您的需求。
您目前无法获得实时或接近实时的转录。您将很快收到转录,但我们只支持超时和按键以结束录制并开始转录。
希望这对你有帮助!

dtcbnfnu

dtcbnfnu2#

要使用Twilio进行实时转录,您需要使用第三方Speech To Text with Twilio Media Streams,该第三方Speech To Text还支持流式/无限语音到文本识别,如Google Cloud Speech To Text。不幸的是,我不认为有一个原生的Twilio动词或动作可以进行实时语音到文本/实时转录。也许您可以在iOS上运行一些东西,但我认为有一个后端服务器来处理这个问题可能会更好,而且在未来更容易扩展。
在高级别上,您需要执行以下操作:

  • 创建一个WebSocket端点,以接收Twilio Media Streams,用于传入音频字节有效负载。这些有效负载是电话语音的base 64编码
  • 将媒体流发送到第三方语音到文本提供商,如Google Cloud
  • 将转录结果发布给最终用户(例如,通过API或理想情况下的真实的连接(如另一个WebSocket)进行轮询)。

Twilio自己就如何做到这一点创建了几个不同的指南:

我花了一些时间熟悉这些指南,并制作了一个类似的live transcription guide in Java using Dropwizard framework(由我自己编写)
这些方法将用于概念验证,但不涵盖与音频流处理的安全性或缩放相关的领域。

相关问题