使用 Google Speech-to-Text v2 转录流音频时出现总计费持续时间问题

问题描述 投票:0回答:1

我们开始使用 Google v2 进行长音频的流转录。我们遇到的问题是,在对话的每一步(每次暂停)中,我们都会收到“isFinal=true”结果,并且我们要承担所有这些中间结果的偏移量之和。

示例: 我们进行了 50 秒的对话。我们在 20 秒、30 秒和 50 秒时收到部分流结果。返回的totalBilledAmount字段不是50秒,而是100秒。

发送的音频为单声道 8Khz

有人知道为什么会发生这种情况,或者如何避免这种情况吗?

问候

google-cloud-speech
1个回答
0
投票

Google 的语音转文本 API 可能会根据暂停或其他音频特征对音频流进行分段。即使这是一个连续的对话,API 也可能将暂停视为“临时结果”的端点。这可能会导致多个临时结果被标记为最终结果,即使整个对话尚未结束。 检查您在向 API 发出请求时使用的设置和参数。确保您不会无意中请求将临时结果标记为最终结果,否则可能会产生额外的费用。仔细检查与流识别和最终确定阈值相关的参数。

如果可能,请考虑实现连续的音频数据流,而不是发送离散的块。连续流可以帮助维护上下文并减少不必要的临时结果被标记为最终结果的可能性。但是,这种方法可能需要修改您的应用程序架构和音频数据处理。

© www.soinside.com 2019 - 2024. All rights reserved.