使用 Claude 3 Haiku 时遇到 429 错误“超出 online_prediction_concurrent_requests_per_base_model 的配额”

问题描述 投票:0回答:1
  • 我在 Vertex AI 上使用 Claude 3 Haiku,偶尔会遇到以下错误消息:
{
  "code": 429,
  "message": "Quota exceeded for aiplatform.googleapis.com/online_prediction_concurrent_requests_per_base_model. Please submit a quota increase request.",
  "status": "RESOURCE_EXHAUSTED"
}
  • 错误消息表明

    online_prediction_concurrent_requests_per_base_model
    的配额已被超出。然而,我每分钟只发出几个请求(少于 5 个)。

  • 我已查看 Vertex AI 配额页面,但找不到有关此特定配额的任何信息。

  • base_model : anthropic-claude-3-haiku-20240307
    的配额是每分钟 60 个请求。

  • 我相信错误消息指的是不同的配额,可能是

    concurrent_requests_per_base_model
    ,该配额未在配额页面上列出。

  • 我搜索了有关

    concurrent_requests_per_base_model
    配额的信息,但没有找到任何信息。

  • 我查看了Vertex AI文档,但没有找到任何相关信息。


  • 请问可以提供
    concurrent_requests_per_base_model
    配额的资料吗?
  • 有办法增加这个配额吗?
  • 如何避免将来遇到此错误?
google-cloud-platform google-cloud-vertex-ai http-status-code-429 claude
1个回答
0
投票

online_prediction_concurrent_requests_per_base_model
是 Claude 3 模型 QPM(每分钟查询次数)的配额标识符。不同的 GCP 区域可能有不同的配额。例如,此处文档列出了 us-central1 的 Claude 3 Opus(预览版)配额为 60 QPM。

您应该能够在 GCP 控制台中查找您的配额。从 GCP 菜单栏中选择

IAM & Admin -> Quotas & System Limits
。然后,在过滤器栏中输入
online_prediction
。您应该会看到
apiplatform.googleapis.com/online_prediction_requests_per_base_model
配额。选择它将显示所有地区的配额。

验证您所在地区的配额。您可以使用页面顶部的

edit quota
操作请求增加配额。

同样,您的配额和消耗可能由其他几个因素决定,例如免费套餐用户、同一项目中的其他人提出请求等。

© www.soinside.com 2019 - 2024. All rights reserved.