计划从REST API数据“抓取”

问题描述投票：0回答：1

我从中提取数据的数据源之一通过REST API以JSON响应的形式提供访问。太好了，因为我已经获得了结构化的数据，即，减少了对非结构化HTML文档进行抓取和解析的痛苦。

但是，它们通过速率限制来限制HTTP流量：每分钟/小时/小时/月/ IP /用户电子邮件的请求。

当我使用Scrapy抓取HTML文档时，我可以轻松地配置每秒的请求数，后续请求之间的延迟，线程数等。我将其称为“加载策略”。它在Scrapy的幕后工作方式是生成大量HTTP请求，这些HTTP请求将Scrapy放入队列中，并针对给定的“加载策略”处理来自队列的请求。

REST API是否有类似的东西？

为了提供一些背景信息，我正在使用从数据源Swagger定义生成的Python REST客户端。客户端在后台使用urlib3。客户端提供了一种以异步方式执行请求的方式以及一种配置线程池的方式，但是看起来我需要花点时间来配置它。我正在寻找开箱即用的解决方案。

python

1个回答

0
投票

使用生成的客户端，您将能够向相应的REST API发出请求。但是，您将需要构建自己的代码/逻辑，以便在请求和请求排队之间插入延迟。 Scrapy为您提供的许多便利将需要由您实现。或者，您将需要找到可以为您提供此功能的工具/软件包。