mycroft-core 音频预转录解析

jtjikinw  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(62)

您的功能请求是否与问题相关?请描述。

修改传递给语音识别插件的音频以去除静音并标准化音频水平可能会很有用,这对于提高准确性也有用。还有其他可用于技能中的音频标记(说话者识别、情绪检测等)的使用场景。

描述您希望实现的解决方案

这个功能已经在Neon中实现,插件的基本类被定义为in neon-transformers

描述您考虑过的替代方案

附加上下文

这个功能在论坛上进行了讨论,链接为https://community.mycroft.ai/t/proposal-for-organizing-functionality-in-mycroft-core/11519/6

rfbsl7qr

rfbsl7qr1#

嘿,我肯定和不同的人讨论过一些类似的事情,我喜欢“音频转换器”的概念,它将它从管道中抽象出来。
我认为我们想要探索的是如何在不修改核心本身的情况下,让项目能够以解决其特定需求的方式使用此类元素。这可以是STT之前的预处理、TTS之后的后处理,或者用于其他任何目的。它执行特定的任务,而不是一定要嵌入到这些服务中。举个例子,如果你有一个降噪音频转换器:

  • 项目A想在转录之前使用它来提高识别率。
  • 项目B想用它来清理他们的TTS输出。
  • 项目C正在从第三方来源获取音频片段,并希望在使用回用户之前清理它们。
  • 项目D想全部都做!

理想的架构应该允许他们所有人在不需要分叉核心,或者选择的STT/TTS/其他服务的情况下进行操作。

wgeznvg7

wgeznvg72#

这可能是STT之前的,TTS之后的,或者用于其他任何目的。我之前没有想到TTS之后的使用场景,但这对于清理低质量输出非常有用(我在想旧版MozillaTTS,它会在文本后面添加声音而不需要标点符号),或者处理用户希望他们的回答能更快/更慢地被读出来。如果音频后端不需要处理这些转换,那么也意味着它们应该适用于任何后端。

相关问题