有人可以帮助我使用 Google Gemini API1.5Pro 模型进行视频/音频处理吗?
我已经搜遍了几乎所有的搜索引擎,但找不到任何可以学习的资源。 我的要求是上传一个音频文件,然后让AI总结一下。
我正在将 Node.js 与 Google AI Studio 结合使用(
@google/generative-ai
)
任何建议都将受到高度重视!
我尝试过以下方法:-
要将文件添加到 Gemini 1.5 进行处理,您必须上传文件 为此,我们使用 media.upload 方法。
需要明确的是,不支持视频。支持的是图像。建议您每秒拍摄 1 帧并将其导出为图像,然后将其上传到文件上传端点。然后,您可以使用向 AI 请求的文件。
可以使用与上传图片相同的方法上传音频。
当你运行提示时将实际的 url 发送到 ai 是通过内容完成的
您发送上传文件时返回的网址。
{
"contents":[
{
"parts":[
{"text": "What is this picture?"},
{
"inline_data": {
"mime_type":"image/jpeg",
"file_data": {"file_uri": file['uri'], "mime_type": file['mimeType']}}
}
}
]
}
]
}
我不知道这是否内置在节点客户端库中,但我会去看看