谷歌云文字到语音的单词时间戳

谷歌云文字到语音的单词时间戳

问题描述投票：16回答：1

我正在通过 Google Cloud 的文本到语音 API 生成语音，我想在说话时突出显示单词。

是否有办法获得口语单词或句子的时间戳？

text-to-speech

speech-synthesis

google-text-to-speech

1个回答

1
投票

这个问题似乎已经变得相当流行，所以我想我会分享我最终的做法。这个方法可能只适用于英语或类似语言。

我首先对任何导致口语中断的标点符号进行文本分割。每一个 "句子 "都会被单独转换为语音。由此产生的音频文件在最后有一个看似随机的沉默量，需要在加入它们之前将其删除，这可以通过FFmpeg的 silencedetect 过滤器。然后，您可以用适当的间隙加入音频文件。近似的单词时间戳可以在句子中进行线性插值。

谷歌云 文字到语音的单词时间戳

问题描述 投票：16回答：1

1个回答

最新问题

问题描述投票：16回答：1