{
"code": 429,
"message": "Quota exceeded for aiplatform.googleapis.com/online_prediction_concurrent_requests_per_base_model. Please submit a quota increase request.",
"status": "RESOURCE_EXHAUSTED"
}
错误消息表明
online_prediction_concurrent_requests_per_base_model
的配额已被超出。然而,我每分钟只发出几个请求(少于 5 个)。
我已查看 Vertex AI 配额页面,但找不到有关此特定配额的任何信息。
base_model : anthropic-claude-3-haiku-20240307
的配额是每分钟 60 个请求。
我相信错误消息指的是不同的配额,可能是
concurrent_requests_per_base_model
,该配额未在配额页面上列出。
我搜索了有关
concurrent_requests_per_base_model
配额的信息,但没有找到任何信息。
我查看了Vertex AI文档,但没有找到任何相关信息。
concurrent_requests_per_base_model
配额的资料吗?online_prediction_concurrent_requests_per_base_model
是 Claude 3 模型 QPM(每分钟查询次数)的配额标识符。不同的 GCP 区域可能有不同的配额。例如,此处文档列出了 us-central1 的 Claude 3 Opus(预览版)配额为 60 QPM。
您应该能够在 GCP 控制台中查找您的配额。从 GCP 菜单栏中选择
IAM & Admin -> Quotas & System Limits
。然后,在过滤器栏中输入 online_prediction
。您应该会看到 apiplatform.googleapis.com/online_prediction_requests_per_base_model
配额。选择它将显示所有地区的配额。
验证您所在地区的配额。您可以使用页面顶部的
edit quota
操作请求增加配额。
同样,您的配额和消耗可能由其他几个因素决定,例如免费套餐用户、同一项目中的其他人提出请求等。