Whisper openai 大文件处理速度慢

问题描述投票：0回答：2

我正在开发一个网络工具，使用 python 中的 open ai Whisper 库将音频/视频转录为文本或字幕。它工作正常，但问题是由于等待时间增加而需要太多时间来转录较大的文件。

这是我在代码中使用的基本代码片段..

import whisper
model=whisper.load_model("base")
result=model.transcribe(filepath)
print(result['text']

完成此操作后，3 分钟长度的音频文件需要超过 4-5 分钟才能转录，那么我如何加快此过程？

python speech-recognition openai-api openai-whisper

2个回答

3
投票

我遇到了同样的挑战，我推荐三种选择：

使用 openai Whisper API。他们优化了速度，实现约 0.1 的实时系数（意味着 180 秒的音频将需要 18 秒来处理）
使用牛津大学 Visual Geometry Group 的 WhisperX，它使用 VAD 首先对音频进行分段，然后批量运行分段。
使用 fast-whisper，它利用 CTranslate2（Transformer 模型的快速推理引擎）进行量化。

我不记得选项 2 和 3 的实际 RTF 数字，但我想说大约是 0.15

0
投票

“他们优化了速度，实现约 0.1 的实时系数”：您能为我提供此信息的来源吗？能给个链接吗？

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.