Discord Bot 与 OpenAI Whisper 集成 - 转录不一致

问题描述 投票:0回答:1

我正在开发一个Discord机器人,它利用Python Discord库,特别是交互库,它是一个构建discord机器人的框架,用于连接OpenAI Whisper进行转录。尽管它没有内置方法,但我们提出了一种修改交互库以在记录期间提供二进制数据的方法,然后我将其保存到 .pcm 文件中。随后,我将 .pcm 文件读取为二进制文件并将其传递给 binary_transcribe() 函数。

def binary_transcribe(self, audio_data): 
    audio_data = frombuffer(audio_data, dtype=int16)
    audio_data = audio_data.astype('float32') / 32767.0
    result = self.model.transcribe(audio_data)
    self.p.terminate()
    print("Transcription completed...")
    return result["text"]

我面临的问题是 Whisper 转录结果不一致且不正确。即使对于相同的输入,耳语在每次运行时也会产生不同的输出。我正在努力找出这个问题的根源,并且希望获得有关如何实现一致且准确的转录结果的任何指导。 在这种情况下使用 OpenAI Whisper 时,是否有任何我应该注意的已知注意事项或调整?

预先感谢您提供的任何帮助或建议。

附加信息:

python python-3.x discord.py openai-whisper
1个回答
0
投票

您测试过这个项目吗?

https://github.com/m-bain/whisperX/

他们谈论:

🗣️ VAD 预处理,减少幻觉和批处理,且不会降低 WER

© www.soinside.com 2019 - 2024. All rights reserved.