我可以从哪里刮？

根据大多数社交媒体平台的说法，禁止从它们身上抓取数据（最近 X 宣布了这一点）

这是我的问题：

抓取：您和您的 API 客户端不得且不得鼓励、允许或要求他人直接或间接抓取 YouTube 应用程序或 Google 应用程序，或获取抓取的 YouTube 数据或内容。公共搜索引擎只能根据 YouTube 的 robots.txt 文件或 YouTube 事先书面许可来抓取数据。

我试图查看每个社交媒体平台的robot.txt文件，包括（tiktok，twitter（X），facebook，reddit，youtube）..没有找到最终答案

0
投票

报废并不违法。但是，如果您不小心设置抓取作业，您最终会向该特定平台发出数百/数千个 Web 请求，这被标记为机器人行为（并且接近 DoS 攻击），因此该平台可以禁止您的 IP地址。

大多数平台都有一个可用于抓取的公共 API，并定义一个信用系统来控制一次可以抓取的信息量（通常是每天）。

对于其他网站，您可能不得不诉诸于从页面源代码中删除旧的内容，因此没有定义明确的限制。

一般来说，您可以应用以下想法：

在研究环境中，如果您使用大学/研究所网络，请记住通知您的系统管理员，因为网络流量高峰（以及潜在的 IP 禁令或澄清请求）需要他们做好及时响应的准备。

TL；博士