我需要两个API,因为在IBM watson中有一个功能,即识别扬声器但在将语音转换为文本方面的准确性并不十分准确。虽然在Google云中,语音到文本API在将语音转换为文本方面具有更好的结果,但它们可以识别英语 - 菲律宾口音,但在确定发言者时,IBM Watson API具有更好的结果。我想创建一个可识别扬声器的语音文本应用程序。我的问题是,IMB watson API和Google云语音到文本API是否可能合并?
您可以尝试使用时序信息组合两者的输出。从一个中获取单词+时间戳,从另一个中获取发言人标签+时间戳,然后使用时间戳对齐单词和标签。