Discord Bot 与 OpenAI Whisper 集成 - 转录不一致

Question

我正在开发一个Discord机器人，它利用Python Discord库，特别是交互库，它是一个构建discord机器人的框架，用于连接OpenAI Whisper进行转录。尽管它没有内置方法，但我们提出了一种修改交互库以在记录期间提供二进制数据的方法，然后我将其保存到 .pcm 文件中。随后，我将 .pcm 文件读取为二进制文件并将其传递给 binary_transcribe() 函数。

def binary_transcribe(self, audio_data): 
    audio_data = frombuffer(audio_data, dtype=int16)
    audio_data = audio_data.astype('float32') / 32767.0
    result = self.model.transcribe(audio_data)
    self.p.terminate()
    print("Transcription completed...")
    return result["text"]

我面临的问题是 Whisper 转录结果不一致且不正确。即使对于相同的输入，耳语在每次运行时也会产生不同的输出。我正在努力找出这个问题的根源，并且希望获得有关如何实现一致且准确的转录结果的任何指导。在这种情况下使用 OpenAI Whisper 时，是否有任何我应该注意的已知注意事项或调整？

预先感谢您提供的任何帮助或建议。

附加信息：

Discord Python 库：https://discordpy.readthedocs.io/en/stable/
交互库：https://interactions-py.github.io/interactions.py/
OpenAI Whisper：https://platform.openai.com/docs/guides/speech-to-text/quickstart

Answer 1

您测试过这个项目吗？

https://github.com/m-bain/whisperX/

他们谈论：

🗣️ VAD 预处理，减少幻觉和批处理，且不会降低 WER

Discord Bot 与 OpenAI Whisper 集成 - 转录不一致

问题描述投票：0回答：1

1个回答

最新问题

Discord Bot 与 OpenAI Whisper 集成 - 转录不一致

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1