我无法在 Google Gemini API 1.5Pro 中上传视频/音频

Question

有人可以帮助我使用 Google Gemini API1.5Pro 模型进行视频/音频处理吗？

我已经搜遍了几乎所有的搜索引擎，但找不到任何可以学习的资源。我的要求是上传一个音频文件，然后让AI总结一下。

我正在将 Node.js 与 Google AI Studio 结合使用(

@google/generative-ai

) 任何建议都将受到高度重视！

我尝试过以下方法：-

我已经安装了谷歌生成包并用它进行探索 Gemini AI API1.5Pro 可以完美地处理纯文本结果以及文本和/或图像结果，但我找不到任何方法来探索音频文件和视频文件。

Answer 1

要将文件添加到 Gemini 1.5 进行处理，您必须上传文件为此，我们使用 media.upload 方法。

需要明确的是，不支持视频。支持的是图像。建议您每秒拍摄 1 帧并将其导出为图像，然后将其上传到文件上传端点。然后，您可以使用向 AI 请求的文件。

可以使用与上传图片相同的方法上传音频。

然后我们可以看看媒体文件提示和这里文件提示策略

当你运行提示时将实际的 url 发送到 ai 是通过内容完成的

您发送上传文件时返回的网址。

{
  "contents":[
    {
      "parts":[
        {"text": "What is this picture?"},
        {
          "inline_data": {
            "mime_type":"image/jpeg",
            "file_data": {"file_uri": file['uri'], "mime_type": file['mimeType']}}
          }
        }
      ]
    }
  ]
}

我不知道这是否内置在节点客户端库中，但我会去看看

我无法在 Google Gemini API 1.5Pro 中上传视频/音频

问题描述投票：0回答：1

1个回答

最新问题

我无法在 Google Gemini API 1.5Pro 中上传视频/音频

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1