如何设置语音识别服务器?

问题描述 投票:1回答:3

如何在服务器端实现语音识别(请不要建议HTML5's x-webkit-speech,javascript等)?该程序将采用音频文件作为输入,并以足够的准确度提供音频文件的文本转录。我可以使用哪些选项?

我已经尝试过实施Sphin4 with Voxforge model,但准确性太差了(他们的配置也可能有些问题,我还在努力学习它)。在一篇文章中,我读到当我们使用<input name="speech" id="speech" type="text" x-webkit-speech />时,输入被发送到外部服务器和服务器而不是识别并将数据发送回浏览器。

我该如何设置该服务器?任何现有的开源服务器如果能够以最小的错误率识别英语句子,也会很有用。

java speech-recognition speech speech-to-text
3个回答
1
投票

您遇到了一些问题:1。如何在客户端捕获音频。 2.如何为服务器传输这些音频。 3.如何进行表彰。 4.如何转回识别和置信度分数。 5.您将如何处理这些认可和信心评分(您的申请)。

对于第一种情况,您可以使用某人点击麦克风图标的Google方法,录制语音一段时间。或者,iPhone Siri,其中VAD用于录制音频。

其次,它是TCP / IP文件传输的基本问题。也可以使用Apple / Google方法并使用Flac或Speex压缩音频文件。

第三,这是非常困难的部分。你需要更好的声学模型,你可以从Voxforge获得。对于像Siri这样的连续语音识别,这是特别正确的。对于命令,Voxforge很好。

第四,这是另一个文件传输问题。

第五,这是你的申请。

困难的部分是语音识别部分。也许其他问题是如何为成千上万的用户扩展这一点。您可以使用Julius语音识别作为语音客户端来捕获音频。我们可以私下聊聊这个问题。


3
投票

您正在实施什么类型的应用程序?应用程序的目的是将用户语音输入转录为文本还是仅仅是为了理解简单的命令?像Sphinx4这样的系统使用统计模型进行语音转录。使用这些类型的系统不会像使用自动语音识别(ASR)系统那样获得良好的识别,该系统使用语法来限制ASR的搜索空间以获得更好的识别。使用统计模型的系统需要大量的调整和试运行才能获得良好的识别。

Sphinx4是我所知道的唯一开源ASR。 Nuance是市场上最大的商业产品/服务。一些商业产品可以选择包括人类在识别率低时转录信息。

Google有一个非官方的API,它在内部用于Google Voice等服务,我相信它与您引用的webkit使用的相同。 Google语音会收取语音邮件信息并将文本通过电子邮件发送给您。谷歌语音被认为是最先进的转录技术,但如果你有一个语音帐户,你会发现转录的信息不是很好。这是a link to a blog article on using the unofficial Google Speech API


1
投票

在Chrome中,该服务器是专有的Google服务器。您无法设置自己的版本。人们已经对服务器的调用进行了反向设计,请参阅http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/的示例,但这对于生产或商业应用程序来说不是一个好主意,因为Google可能会随时更改API或限制其访问权限。

这是对不同问题的旧答案,但它可能会有所帮助 - https://stackoverflow.com/a/6351055/90236

© www.soinside.com 2019 - 2024. All rights reserved.