使用 Claude 3 Haiku 时遇到 429 错误“超出 online_prediction_concurrent_requests_per_base_model 的配额”

Question

我在 Vertex AI 上使用 Claude 3 Haiku，偶尔会遇到以下错误消息：

{
  "code": 429,
  "message": "Quota exceeded for aiplatform.googleapis.com/online_prediction_concurrent_requests_per_base_model. Please submit a quota increase request.",
  "status": "RESOURCE_EXHAUSTED"
}

错误消息表明
```
online_prediction_concurrent_requests_per_base_model
```
的配额已被超出。然而，我每分钟只发出几个请求（少于 5 个）。
我已查看 Vertex AI 配额页面，但找不到有关此特定配额的任何信息。

base_model : anthropic-claude-3-haiku-20240307

的配额是每分钟 60 个请求。

我相信错误消息指的是不同的配额，可能是
```
concurrent_requests_per_base_model
```
，该配额未在配额页面上列出。
我搜索了有关
```
concurrent_requests_per_base_model
```
配额的信息，但没有找到任何信息。
我查看了Vertex AI文档，但没有找到任何相关信息。

请问可以提供
```
concurrent_requests_per_base_model
```
配额的资料吗？
有办法增加这个配额吗？
如何避免将来遇到此错误？

Answer 1

online_prediction_concurrent_requests_per_base_model

是 Claude 3 模型 QPM（每分钟查询次数）的配额标识符。不同的 GCP 区域可能有不同的配额。例如，此处文档列出了 us-central1 的 Claude 3 Opus（预览版）配额为 60 QPM。

您应该能够在 GCP 控制台中查找您的配额。从 GCP 菜单栏中选择

IAM & Admin -> Quotas & System Limits

。然后，在过滤器栏中输入

online_prediction

。您应该会看到

apiplatform.googleapis.com/online_prediction_requests_per_base_model

配额。选择它将显示所有地区的配额。

验证您所在地区的配额。您可以使用页面顶部的

edit quota

操作请求增加配额。

同样，您的配额和消耗可能由其他几个因素决定，例如免费套餐用户、同一项目中的其他人提出请求等。

使用 Claude 3 Haiku 时遇到 429 错误“超出 online_prediction_concurrent_requests_per_base_model 的配额”

问题描述投票：0回答：1

1个回答

最新问题

使用 Claude 3 Haiku 时遇到 429 错误“超出 online_prediction_concurrent_requests_per_base_model 的配额”

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1