您的功能请求是否与问题相关?请描述。
修改传递给语音识别插件的音频以去除静音并标准化音频水平可能会很有用,这对于提高准确性也有用。还有其他可用于技能中的音频标记(说话者识别、情绪检测等)的使用场景。
描述您希望实现的解决方案
这个功能已经在Neon中实现,插件的基本类被定义为in neon-transformers。
描述您考虑过的替代方案
无
附加上下文
这个功能在论坛上进行了讨论,链接为https://community.mycroft.ai/t/proposal-for-organizing-functionality-in-mycroft-core/11519/6。
2条答案
按热度按时间rfbsl7qr1#
嘿,我肯定和不同的人讨论过一些类似的事情,我喜欢“音频转换器”的概念,它将它从管道中抽象出来。
我认为我们想要探索的是如何在不修改核心本身的情况下,让项目能够以解决其特定需求的方式使用此类元素。这可以是STT之前的预处理、TTS之后的后处理,或者用于其他任何目的。它执行特定的任务,而不是一定要嵌入到这些服务中。举个例子,如果你有一个降噪音频转换器:
理想的架构应该允许他们所有人在不需要分叉核心,或者选择的STT/TTS/其他服务的情况下进行操作。
wgeznvg72#
这可能是STT之前的,TTS之后的,或者用于其他任何目的。我之前没有想到TTS之后的使用场景,但这对于清理低质量输出非常有用(我在想旧版MozillaTTS,它会在文本后面添加声音而不需要标点符号),或者处理用户希望他们的回答能更快/更慢地被读出来。如果音频后端不需要处理这些转换,那么也意味着它们应该适用于任何后端。