我想使用python量化浮动表示中声音的深度。例如,深声音可以用低于0的分数表示,高声音(与深相反)可以用高于0的分数表示。可以将深声音的一个示例与Arnold Schwarzenegger的声音和高声音进行比较。小孩的声音。
我没有找到通过谷歌搜索解决此问题的任何明确方法。我尝试使用timbral model来获得音色分数,但是似乎计算没有用。也就是说,深沉的声音和高沉的声音在得分上没有太大的区别。
基于此source,我可以使用FFT分析。但是,我不明白如何将FFT图简化为声音深度的单一表示。
那么使用FFT获得分析结果后如何处理?在一个更广泛的问题中,我该如何特别使用Python将声音的深度表示为浮动表示形式?
编辑:有关其他信息,我要量化的数据集包括歌声。我已经获得了FFT输出,并通过均值运算减小了时间帧的尺寸,因此我将平均结果留给频点。
由于数据集具有明显的音高特征,当两个声音都在演唱相同音符时,深声音和高声音的矢量峰值相似。我的推断是,这是由于两个声音都产生了相同的谐波。 (随时纠正我的解释。)
区分同一音符的深沉声音和高沉声音的有效方法是什么?
您可以在时间空间和频率空间中获得有关样本的统计信息。通常,您需要根据两种表示来计算均值,中位数,方差和熵。您还可以获得其他值,但这只是基础。这样,您可以从信号样本中获得值的向量。
为了获得更好的结果,您可以在两种表示形式的信号重叠窗口上进行这些计算,并以此方式获得更大且信息密度更高的特征向量。
在这个特定问题中,我将计算不同频带中信号的傅立叶变换的能量和积分,因为您会期望深沉的声音在较低的频率中具有较大的值。
算法应该看起来像
结果将是总结信号的值的向量。