我正在尝试为 YOLOv8 模型制作一个用于对象检测的音频反馈系统。它从我的网络摄像头获取实时镜头并使用流来检测对象。但是,我想对其进行补充,以便使用文本转语音来朗读检测到的对象。我已经尝试了一个多星期,一次又一次的失败后,我决定终于是时候寻求帮助了。这是我用于通过网络摄像头检测对象的代码:
# Python
from ultralytics import YOLO
from PIL import Image
import cv2
model = YOLO("yolov8n.pt")
results = model.predict(source="0", show=True)
我尝试将打印的结果转换为语音,但无论我尝试什么,我都无法听到打印的结果(是的,我已经检查了我的音频播放和所有内容,没有硬件问题)
from ultralytics import YOLO
import pyttsx3
# Initialize text-to-speech engine
engine = pyttsx3.init()
model = YOLO("yolov8n.pt")
# Make predictions
results = model.predict(source="0", show=True)
# Convert results to a string
results_str = str(results)
# Print results
print(results_str)
# Speak the results
engine.say(results_str)
engine.runAndWait()
嘿任何更新我也遇到同样的问题。