我正在尝试使用 Whisper 库转录一个音频文件,其中包含交替的英语和印尼语语音。
部分印尼语语音被正确转录为印尼语文本,但部分则被翻译成英语并转录。
这种行为似乎是随机的,相同模型的不同通道和不同模型会给出不同的结果。
有什么办法只转录而不翻译吗?
将语言设置为印度尼西亚语会导致所有内容都翻译为印度尼西亚语。将其设置为英语会导致我所描述的行为。
您可以使用WhisperX并利用其扬声器二值化。