我正在通过 Google Cloud 的文本到语音 API 生成语音,我想在说话时突出显示单词。
是否有办法获得口语单词或句子的时间戳?
这个问题似乎已经变得相当流行,所以我想我会分享我最终的做法。这个方法可能只适用于英语或类似语言。
我首先对任何导致口语中断的标点符号进行文本分割。每一个 "句子 "都会被单独转换为语音。由此产生的音频文件在最后有一个看似随机的沉默量,需要在加入它们之前将其删除,这可以通过FFmpeg的 silencedetect
过滤器。然后,您可以用适当的间隙加入音频文件。近似的单词时间戳可以在句子中进行线性插值。