耳语能给我估计每个单词而不是每 5-10 个单词的时间吗?

问题描述 投票:0回答:0

我使用 openai 的耳语来转录音频,它每 5-10 个单词给我变量“开始”、“结束”和“文本”(在开始和结束之间)。是否可以为每个单词获取这些值?我必须喜欢,使用不同的耳语模型或类似物吗?我会使用该数据来生成变化更快的字幕。

如有任何帮助,我们将不胜感激!

诚挚的

python artificial-intelligence moviepy openai-api openai-whisper
© www.soinside.com 2019 - 2024. All rights reserved.