实时语音活动检测

问题描述 投票:2回答:1

我正在对记录的音频文件执行语音活动检测,以检测波形中的语音与非语音部分。

分类器的输出看起来像(突出显示的绿色区域表示语音):

enter image description here

[我在这里面临的唯一问题是使其能够用于音频输入流(例如:来自麦克风),并在规定的时间范围内进行实时分析。

我知道PyAudio可用于动态记录来自麦克风的语音,并且有几个实时可视化示例,包括波形,频谱,频谱图等,但找不到与在麦克风中进行特征提取有关的任何内容。接近实时的方式。

python speech-recognition speech-to-text speech pyaudio
1个回答
1
投票

音频通常具有较低的比特率,因此我看不到完全用numpynumpy编写代码的任何问题。如果您需要低级数组访问,请考虑python。同时分析您的代码,例如用numba。还请注意,有numba用于更高级的信号处理。

通常,音频处理在样本中起作用。因此,您可以为流程定义样本量,然后运行一种方法来确定该样本是否包含语音。

line_profiler

那应该让您走得很远。

© www.soinside.com 2019 - 2024. All rights reserved.