声音识别/关键词识别

我想知道解决我的问题的最佳解决方案是什么。

由于口音和方言，我们目前正在寻求在不使用语音转文本/关键字识别的情况下进行关键字识别。

我们想听可能很长的声音文件，然后针对关键字列表运行它以确定这些关键字是否存在。我们还可以对这些关键词进行模型训练，以训练我们的口音以适应这些模型。

最好的解决方案是什么？我老板的想法是在摄谱仪中找到相似性，但我不确定解决这个问题的最有效方法是什么。

我们主要使用 C# 工作，但愿意使用任何语言来最好地解决我们的问题。

我尝试使用 PocketSphinx 但无法正常工作，因为它似乎仍在尝试进行语音转文本，但效果不佳，因为我们国家有 11 种语言，每种语言都有不同的口音。

0
投票

首先，我要做几个假设：

据我所知，唯一拥有 11 种官方语言的国家是南非，如果这是您的用例，那么您正在考虑尝试进行关键字识别，而不仅仅是跨不同的语言 - 南非荷兰语、英语、茨瓦纳语、斯瓦希里语、科萨语、祖鲁语 - 但跨语系 - 班图语、科伊桑语、印欧语。
您不想进行关键字识别的原因是大多数关键字识别模型都是基于单一语言的 - 并且您希望能够跨您的十一种语言进行关键字识别。
这里有一个隐藏的要求，即关键字识别必须识别多种语言、方言和口音中的单词。

我解决这个问题的方法是使用来自十一种不同语言的数据来训练关键字识别模型。模型不关心模型中的什么语言 - 它关心模型中的distribution是否与部署环境的distribution相似 - 即你想要使用的语言和口音型号。

从根本上讲，关键字识别需要语音转文本 - 因为语音转文本必须“识别”该单词以预测该单词是否是热门单词。但这个词必须在训练数据中才能被识别。

0
投票

我在口音方面遇到了类似的问题，我的方法是使用光谱仪。我使用摄谱仪[将录制的音频文件转换为摄谱仪]训练了一个 tf-mobilenet 分类模型。为了测试，用户的语音命令被记录和处理[如果使用高定向麦克风可以避免]并转换为光谱仪。该图像作为模型的输入。

我使用 python 进行转换和训练。尝试使用 vosk 或 silero-stt 模型来处理语音文本。与 deepspeech 和 pocket-sphinx 相比，它们给出了准确的结果。即使是雪童也是不错的选择。