语音识别(SR)是计算语言学的跨学科子领域,它将语言学,计算机科学和电气工程领域的知识和研究结合起来,开发出能够通过计算机识别和翻译口语的方法和技术。和计算机化的设备,如分类为智能技术和机器人技术的设备
我正在用python制作一个语音识别程序,我希望当我说“上面”时,它将连续运行循环以按下向下键,直到我再次不说上面,但现在...
将音频转换为文本并将其插入到 tkinter 的窗口中会产生 AttributeError: 'dict' object has no attribute 'Text'
您好,我是越南人。我正在尝试使用下面的代码将音频转换为文本并插入到 tkinter 窗口中,但出现以下错误: 在此输入图像描述 可以请你...
speech_recognition 库无法在 MacOS 上的 Python 中运行
我正在我的 MacOS 设备上制作虚拟助手,并使用了语音识别。 该库需要pyaudio,所以我安装了pyaudio,但它仍然无法工作。 我看到这个问题,我尝试运行...
为什么 Mel-filterbank 能量在使用 CNN 进行语音命令识别方面优于 MFCC?
上个月,一位名叫@jojek的用户在评论中告诉我以下建议: 我敢打赌,如果有足够的数据,CNN 在梅尔能量上的表现将优于 MFCC。你应该试试。更有意义的是...
是否可以将 Google 的 Speech-To-Text API 集成到我的网站中
我正在尝试寻找将语音转文本 API 集成到我的网站中的文档。 通过确切的用例,通过语音输入填充文本区域 但它似乎不起作用 - 只是想方设法
我能够通过创建如下接口在 TypeScript 中运行 SpeechRecognition,并且工作正常: 命名空间核心{ 导出接口 IWindow 扩展 Window{ webkit语音识别...
我正在使用speech_to_text,它在网上非常好 ,但我希望它可以离线工作,如何在 Flutter 中实现这一点? 根据包的自述文件 在谷歌应用程序中 安装谷歌应用程序 设置 > 语音...
我很难理解与块生成器和转录过程相关的Python脚本摘录的动态。 这是完整的代码:https://cloud.google.com/speech-to-text/docs/
使用torch.nn.CTCloss时,为什么我的损失曲线收敛了,但模型似乎重复只输出几个标记? 例如: 我的标签是:[220, 1122, 172, 26, 460, 836, 171, 1813, 113, 39,...
如何使用 Python 实时动态处理 Twilio 上的调用?
我正在构建一个执行以下操作的应用程序: 拨打外线电话。 当被叫者接听时开始流式传输 使用 Vosk 实时转录流 检测关键字以区分两个差异...
我正在尝试使用适用于 iOS 的 Microsoft 认知服务语音转文本 SDK。到目前为止,我已经设法让 recognizeOnce 函数运行没有任何问题,但 Swift 的示例是...
如何使用 Vosk 获取已知转录文本的音频文件中单词的开始和结束时间?
我在Python中使用Vosk(https://alphacephei.com/vosk/),我想获取音频文件中每个单词的开始和结束时间,并且我有音频文件的转录。 我正在使用一些代码我...
使用React中的Web Media Recorder API作为前端,使用Python作为后端来实现实时语音识别
我们要实现什么? 我们部署了一个人工智能模型来传输麦克风中的音频并向用户显示语音文本。像这样的东西。 使用什么技术? 蟒蛇...
如何使用faster_whisper从转录中获取置信度分数?
我正在使用faster_whisper Python 库来转录音频文件。目前,我能够获取音频数据的转录,但无法检索这些转录的置信度分数...
我开始使用谷歌语音API来转录音频。 正在转录的音频包含许多依次说出的数字。 例如。 273298 但转录结果是 270-3298 我的咕...
是否可以使用“speech_to_text”库在用户句子结束后设置结束音频输入的时间?
我正在编写一段代码来识别用户的语音,并据此在应用程序中做出决策,但我们知道,当我们说话时,我们可以短暂中断,以便更好地思考问题...
我正在寻找一个准确率 > 95% 且平均响应时间的语音识别库 < 400ms. This is needed for one of my native ANDROID app which has been running on propriety
SpeechSynthesizer 无法获取所有已安装的语音
我在我的 Windows 7 64 位操作系统中安装了新的 32 位 Scansoft 语音 (Jennifer),以便能够在我正在开发的一个 .NET 应用程序中使用。 问题是当我打电话给我时...
我使用 Dragon NaturallySpeaking 来听写电子邮件和文档,以最大程度地减少键盘和鼠标的使用,但除了为
我在android上使用SpeechRecognizer来识别用户的声音。 在卸载 Google App 之前它运行良好。 (https://play.google.com/store/apps/details?id=com.google.android.googlequicksearch...