据我所知,Microsoft/Azure 认知服务的“语音服务”目前正在进行合理化练习
https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/rest-apis#speech-to-text
https://learn.microsoft.com/en-us/azure/cognitive-services/speech/home
仅
.wav
二进制文件是可接受的,其他任何内容都会给出响应:
{"Message":"Unsupported audio format"}
有没有其他方法可以发现可接受的音频格式/编码/等,或者就是这样吗?
[有关在 python
.m4a
中预处理任意/pydub
音频格式的提示的奖励积分,以便它们满足标准 - 目前适用于 .mp3
,但不适用于 .m4a
]。
谢谢!
当前支持的格式是WAV(16 kHz 或 8 kHz、16 位和单声道 PCM)。未来将添加更多格式和编解码器支持。