如何使用 Whisper 转录多语言音频文件而不翻译任何内容?

问题描述 投票:0回答:1

我正在尝试使用 Whisper 库转录一个音频文件,其中包含交替的英语和印尼语语音。

部分印尼语语音被正确转录为印尼语文本,但部分则被翻译成英语并转录。

这种行为似乎是随机的,相同模型的不同通道和不同模型会给出不同的结果。

有什么办法只转录而不翻译吗?

将语言设置为印度尼西亚语会导致所有内容都翻译为印度尼西亚语。将其设置为英语会导致我所描述的行为。

python multilingual speech-to-text whisper
1个回答
1
投票

您可以使用WhisperX并利用其扬声器二值化

  • 进行两次(或更多)转录,每种语言一次。
  • 根据说话者和时间戳合并两个结果。
© www.soinside.com 2019 - 2024. All rights reserved.