我正在对记录的音频文件执行语音活动检测,以检测波形中的语音与非语音部分。
分类器的输出看起来像(突出显示的绿色区域表示语音):
[我在这里面临的唯一问题是使其能够用于音频输入流(例如:来自麦克风),并在规定的时间范围内进行实时分析。
我知道PyAudio
可用于动态记录来自麦克风的语音,并且有几个实时可视化示例,包括波形,频谱,频谱图等,但找不到与在麦克风中进行特征提取有关的任何内容。接近实时的方式。
音频通常具有较低的比特率,因此我看不到完全用numpy
和numpy
编写代码的任何问题。如果您需要低级数组访问,请考虑python
。同时分析您的代码,例如用numba
。还请注意,有numba
用于更高级的信号处理。
通常,音频处理在样本中起作用。因此,您可以为流程定义样本量,然后运行一种方法来确定该样本是否包含语音。
line_profiler
那应该让您走得很远。