我正在开发一个Discord机器人,它利用Python Discord库,特别是交互库,它是一个构建discord机器人的框架,用于连接OpenAI Whisper进行转录。尽管它没有内置方法,但我们提出了一种修改交互库以在记录期间提供二进制数据的方法,然后我将其保存到 .pcm 文件中。随后,我将 .pcm 文件读取为二进制文件并将其传递给 binary_transcribe() 函数。
def binary_transcribe(self, audio_data):
audio_data = frombuffer(audio_data, dtype=int16)
audio_data = audio_data.astype('float32') / 32767.0
result = self.model.transcribe(audio_data)
self.p.terminate()
print("Transcription completed...")
return result["text"]
我面临的问题是 Whisper 转录结果不一致且不正确。即使对于相同的输入,耳语在每次运行时也会产生不同的输出。我正在努力找出这个问题的根源,并且希望获得有关如何实现一致且准确的转录结果的任何指导。 在这种情况下使用 OpenAI Whisper 时,是否有任何我应该注意的已知注意事项或调整?
预先感谢您提供的任何帮助或建议。
附加信息: