谷歌云 文字到语音的单词时间戳

问题描述 投票:16回答:1

我正在通过 Google Cloud 的文本到语音 API 生成语音,我想在说话时突出显示单词。

是否有办法获得口语单词或句子的时间戳?

text-to-speech speech-synthesis google-text-to-speech
1个回答
1
投票

这个问题似乎已经变得相当流行,所以我想我会分享我最终的做法。这个方法可能只适用于英语或类似语言。

我首先对任何导致口语中断的标点符号进行文本分割。每一个 "句子 "都会被单独转换为语音。由此产生的音频文件在最后有一个看似随机的沉默量,需要在加入它们之前将其删除,这可以通过FFmpeg的 silencedetect 过滤器。然后,您可以用适当的间隙加入音频文件。近似的单词时间戳可以在句子中进行线性插值。

© www.soinside.com 2019 - 2024. All rights reserved.