Whisper openai 大文件处理速度慢

问题描述 投票:0回答:2

我正在开发一个网络工具,使用 python 中的 open ai Whisper 库将音频/视频转录为文本或字幕。 它工作正常,但问题是由于等待时间增加而需要太多时间来转录较大的文件。

这是我在代码中使用的基本代码片段..

import whisper
model=whisper.load_model("base")
result=model.transcribe(filepath)
print(result['text']

完成此操作后,3 分钟长度的音频文件需要超过 4-5 分钟才能转录,那么我如何加快此过程?

python speech-recognition openai-api openai-whisper
2个回答
3
投票

我遇到了同样的挑战,我推荐三种选择:

  1. 使用 openai Whisper API。他们优化了速度,实现约 0.1 的实时系数(意味着 180 秒的音频将需要 18 秒来处理)

  2. 使用牛津大学 Visual Geometry Group 的 WhisperX,它使用 VAD 首先对音频进行分段,然后批量运行分段。

  3. 使用 fast-whisper,它利用 CTranslate2(Transformer 模型的快速推理引擎)进行量化。

我不记得选项 2 和 3 的实际 RTF 数字,但我想说大约是 0.15


0
投票

“他们优化了速度,实现约 0.1 的实时系数”:您能为我提供此信息的来源吗?能给个链接吗?

© www.soinside.com 2019 - 2024. All rights reserved.