GCP语音转文字和语音激活检测一起工作。

问题描述 投票:0回答:1

我觉得我很接近得到我想要的东西,但缺少一个特别的东西。我想使用谷歌的语音转文本引擎,来实时流转音频数据(在这种情况下,来自wav文件,但也可以是stdin),并在应用程序检测到沉默时生成抄本。我开始 用这个代码 也就是 但尽管它说它能流式传输音频,但我只有在它把整个音频文件发送完GCP后才会得到稿件。

我的计划是: 用一个VAD 这样我就可以检测到沉默,或者至少没有声音活动。我的VAD被设置为当检测到0.5秒或3秒的沉默时发送一条消息。当检测到3秒沉默时,我想将上次沉默后的所有数据视为 "短语"。然后把这个发送给GCP,它再发回这个的转码。

到目前为止,我已经成功地检测到了沉默--即VAD的实现工作。 我已经让STT生成了整个音频文件的转录,然而我苦恼的是,在检测到沉默后和沉默时,把数据砍掉,让GCP生成该位的转录。我想,用一句话来说,我在和我的缓冲区斗争......。

任何帮助非常感激。

顺便说一句,我 认为 这是一种方法,因为GCP STT的实施方式,但我认为这可能不是最好的方法。EOF 将关闭流到STT,在这种情况下,我需要创建一个新的流,当VAD再次检测到语音,并再次调用它。I 决定把我的代码做一个要点,因为这里的代码会比较大.

谢谢你

go google-cloud-platform stream speech-to-text google-cloud-speech
1个回答
0
投票

我建议使用内置功能 察言观色 single_utterancerequest应该在不再检测到语音后自动结束(默认为false)

© www.soinside.com 2019 - 2024. All rights reserved.