我使用 openai 的耳语来转录音频,它每 5-10 个单词给我变量“开始”、“结束”和“文本”(在开始和结束之间)。是否可以为每个单词获取这些值?我必须喜欢,使用不同的耳语模型或类似物吗?我会使用该数据来生成变化更快的字幕。
如有任何帮助,我们将不胜感激!
诚挚的