根据大多数社交媒体平台的说法,禁止从它们身上抓取数据(最近 X 宣布了这一点)
这是我的问题:
抓取:您和您的 API 客户端不得且不得鼓励、允许或要求他人直接或间接抓取 YouTube 应用程序或 Google 应用程序,或获取抓取的 YouTube 数据或内容。公共搜索引擎只能根据 YouTube 的 robots.txt 文件或 YouTube 事先书面许可来抓取数据。
我试图查看每个社交媒体平台的robot.txt文件,包括(tiktok,twitter(X),facebook,reddit,youtube)..没有找到最终答案
报废并不违法。但是,如果您不小心设置抓取作业,您最终会向该特定平台发出数百/数千个 Web 请求,这被标记为机器人行为(并且接近 DoS 攻击),因此该平台可以禁止您的 IP地址。
大多数平台都有一个可用于抓取的公共 API,并定义一个信用系统来控制一次可以抓取的信息量(通常是每天)。
对于其他网站,您可能不得不诉诸于从页面源代码中删除旧的内容,因此没有定义明确的限制。
一般来说,您可以应用以下想法:
在研究环境中,如果您使用大学/研究所网络,请记住通知您的系统管理员,因为网络流量高峰(以及潜在的 IP 禁令或澄清请求)需要他们做好及时响应的准备。
TL;博士