使用python量化语音深度

问题描述投票：1回答：1

我想使用python量化浮动表示中声音的深度。例如，深声音可以用低于0的分数表示，高声音（与深相反）可以用高于0的分数表示。可以将深声音的一个示例与Arnold Schwarzenegger的声音和高声音进行比较。小孩的声音。

我没有找到通过谷歌搜索解决此问题的任何明确方法。我尝试使用timbral model来获得音色分数，但是似乎计算没有用。也就是说，深沉的声音和高沉的声音在得分上没有太大的区别。

基于此source，我可以使用FFT分析。但是，我不明白如何将FFT图简化为声音深度的单一表示。

那么使用FFT获得分析结果后如何处理？在一个更广泛的问题中，我该如何特别使用Python将声音的深度表示为浮动表示形式？

python

voice

1个回答

0
投票

您可以在时间空间和频率空间中获得有关样本的统计信息。通常，您需要根据两种表示来计算均值，中位数，方差和熵。您还可以获得其他值，但这只是基础。这样，您可以从信号样本中获得值的向量。

为了获得更好的结果，您可以在两种表示形式的信号重叠窗口上进行这些计算，并以此方式获得更大且信息密度更高的特征向量。

在这个特定问题中，我将计算不同频带中信号的傅立叶变换的能量和积分，因为您会期望深沉的声音在较低的频率中具有较大的值。