用户对 Alexa 做出响应后,我们将其捕获到插槽中,那么我们如何直接在 Alexa 技能中访问音频格式的响应?
例如:用户 -> 运行调查技能,Alexa -> 当然,首先告诉我你好吗? ,用户 -> 嗯,我做得很好。
在此示例中,我想访问用户响应的音频格式“嗯,我做得很好。”以原始音频格式,未经语音转文本处理,具有用户的原始语气和讽刺,以供进一步使用。
user_response = context.request.intent.slots["user_response"].value
# Generate a TTS audio response.
tts_audio_response = ask_sdk_core.speech.synthesize(user_response)
# Return the TTS audio response to Alexa.
response = context.response
我尝试了这段代码,但我如何访问它却无法访问?
我不相信你的技能可以访问用户的原始音频输入或其任何情感/语气/元数据。技能输入仅限于输入匹配的意图以及它们提供的任何槽值的文本表示。