实时语音活动检测

Question

我正在对记录的音频文件执行语音活动检测，以检测波形中的语音与非语音部分。

分类器的输出看起来像（突出显示的绿色区域表示语音）：

[我在这里面临的唯一问题是使其能够用于音频输入流（例如：来自麦克风），并在规定的时间范围内进行实时分析。

我知道PyAudio可用于动态记录来自麦克风的语音，并且有几个实时可视化示例，包括波形，频谱，频谱图等，但找不到与在麦克风中进行特征提取有关的任何内容。接近实时的方式。

Answer 1

音频通常具有较低的比特率，因此我看不到完全用numpy和numpy编写代码的任何问题。如果您需要低级数组访问，请考虑python。同时分析您的代码，例如用numba。还请注意，有numba用于更高级的信号处理。

通常，音频处理在样本中起作用。因此，您可以为流程定义样本量，然后运行一种方法来确定该样本是否包含语音。

line_profiler

那应该让您走得很远。