Azure语音转文本忽略数字

92vpleto  于 2023-01-18  发布在  其他
关注(0)|答案(2)|浏览(136)

我正在使用azure语音转文本功能来查找wav文件中话语的时间戳。
我遇到的问题是,如果用户记录了数字,例如"我要数到三。一,二,三,我来了"。数字会从输出中省略。英语和其他语言都会发生这种情况。我可以理解像"eh"和"ah"这样的发音被省略,但是数字呢?为什么这是默认值?
我正在使用:

  • 语音配置输出格式=输出格式,详细;
  • 默认语言模型。

我能以某种方式对SpeechRecognizer进行不同的配置,使其也输出数字吗?

krcsximq

krcsximq1#

  • 因此,使用下面的代码,我能够将.wav音频文件转换为文本,而不会丢失数据。
string speechKey = "<Your_Key>";
 string speechRegion = "Your_Region";
 
 var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);
        
speechConfig.SpeechRecognitionLanguage = "en-US";

using var audioConfig = AudioConfig.FromWavFileInput("<Path to File>");

using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        
var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
       
Console.WriteLine(speechRecognitionResult.Text);

输出:

  • 但是很明显,转换模型中有一个错误,如果在I'm going to count to three.One, two, three, here I come之间有停顿,模型将从音频文件中省略One, two, three, here I come句子。
  • 此外,我在音频配置类上的MSDOC中找不到任何内容来配置有关此问题的音频设置。
gk7wooem

gk7wooem2#

我发现错误我的结果不识别数字。这是在我自己的代码。在我的后处理我试图摆脱标点符号的结果。在这里我也不小心摆脱了数字。

相关问题