我正在尝试制作一个机器人来生成带有文本到语音的视频,但我需要知道文本到语音的持续时间,而无需生成它。
我用的是175的语速,
engine.getProperty('voices')[0]
我在网上找过,但我只找到了如何获得TTS post-generation的长度。我也尝试做一些简单的数学运算,但也没有用,答案太不准确,我试图获得 10~100 毫秒的精度。