我可以从哪里刮?

问题描述 投票:0回答:1

根据大多数社交媒体平台的说法,禁止从它们身上抓取数据(最近 X 宣布了这一点)

这是我的问题:

  • 出于科学研究目的(情感分析任务)进行抓取是否违法?
  • 如果合法,您建议哪些网站?
  • 使用 YouTube API 提取评论时..这被视为非法吗?因为根据 DToS:

抓取:您和您的 API 客户端不得且不得鼓励、允许或要求他人直接或间接抓取 YouTube 应用程序或 Google 应用程序,或获取抓取的 YouTube 数据或内容。公共搜索引擎只能根据 YouTube 的 robots.txt 文件或 YouTube 事先书面许可来抓取数据。

我试图查看每个社交媒体平台的robot.txt文件,包括(tiktok,twitter(X),facebook,reddit,youtube)..没有找到最终答案

machine-learning web-scraping dataset data-science sentiment-analysis
1个回答
0
投票

报废并不违法。但是,如果您不小心设置抓取作业,您最终会向该特定平台发出数百/数千个 Web 请求,这被标记为机器人行为(并且接近 DoS 攻击),因此该平台可以禁止您的 IP地址。

大多数平台都有一个可用于抓取的公共 API,并定义一个信用系统来控制一次可以抓取的信息量(通常是每天)。

对于其他网站,您可能不得不诉诸于从页面源代码中删除旧的内容,因此没有定义明确的限制。

一般来说,您可以应用以下想法:

  • 每次提取更少的信息
  • 安排更多的报废工作(每个工作取出更少的信息)
  • 不要提供固定的时间表(例如每小时一次,总是在下午 4 点等;网站会注意到这一点,并将您标记为机器人)

在研究环境中,如果您使用大学/研究所网络,请记住通知您的系统管理员,因为网络流量高峰(以及潜在的 IP 禁令或澄清请求)需要他们做好及时响应的准备。

TL;博士

  • 尽可能使用 API,它们定义了其限制
  • 每次提取的信息较少,重复作业
  • 随机安排作业以避免被标记为机器人
  • 让网络负责人知道,出于技术和法律原因,这些作业将会运行
  • 不,报废并不违法,但必须做得好
© www.soinside.com 2019 - 2024. All rights reserved.