为什么 espn.com 不允许某些年份被抓取?

问题描述 投票:0回答:1

我正在使用

scrapy
从 ESPN 抓取数据,并注意到在 2009 年及之前,我被屏蔽了,因为他们的
robots.txt
文件中有 Disallow: */season/200

为什么 ESPN(可能还有其他网站)会阻止特定年份的数据被抓取?我知道如果我真的想的话我可以绕过它,但我很好奇为什么一个网站首先会做这样的事情。

有效网址:

https://www.espn.com/nfl/schedule/_/week/1/year/2010/seasontype/2

无效网址:

https://www.espn.com/nfl/schedule/_/week/1/year/2009/seasontype/2

web-scraping scrapy robots.txt
1个回答
0
投票

只是猜测,但可能是因为这将有助于促进搜索引擎结果的更新。当人们搜索时间表时,他们最有可能搜索 2010 年以上范围内的时间表,因此将 200x 时间表排除在搜索引擎索引之外可能会有所帮助。

© www.soinside.com 2019 - 2024. All rights reserved.