我无法在 Google Gemini API 1.5Pro 中上传视频/音频

问题描述 投票:0回答:1

有人可以帮助我使用 Google Gemini API1.5Pro 模型进行视频/音频处理吗?

我已经搜遍了几乎所有的搜索引擎,但找不到任何可以学习的资源。 我的要求是上传一个音频文件,然后让AI总结一下。

我正在将 Node.js 与 Google AI Studio 结合使用(

@google/generative-ai
) 任何建议都将受到高度重视!

我尝试过以下方法:-

  • 我已经安装了谷歌生成包并用它进行探索 Gemini AI API1.5Pro 可以完美地处理纯文本结果以及文本和/或图像结果,但我找不到任何方法来探索音频文件和视频文件。
javascript node.js express artificial-intelligence google-gemini
1个回答
0
投票

要将文件添加到 Gemini 1.5 进行处理,您必须上传文件 为此,我们使用 media.upload 方法。

需要明确的是,不支持视频。支持的是图像。建议您每秒拍摄 1 帧并将其导出为图像,然后将其上传到文件上传端点。然后,您可以使用向 AI 请求的文件。

可以使用与上传图片相同的方法上传音频。

然后我们可以看看媒体文件提示和这里文件提示策略

当你运行提示时将实际的 url 发送到 ai 是通过内容完成的

您发送上传文件时返回的网址。

{
  "contents":[
    {
      "parts":[
        {"text": "What is this picture?"},
        {
          "inline_data": {
            "mime_type":"image/jpeg",
            "file_data": {"file_uri": file['uri'], "mime_type": file['mimeType']}}
          }
        }
      ]
    }
  ]
}

我不知道这是否内置在节点客户端库中,但我会去看看

© www.soinside.com 2019 - 2024. All rights reserved.