我正在使用
scrapy
从 ESPN 抓取数据,并注意到在 2009 年及之前,我被屏蔽了,因为他们的 robots.txt文件中有
Disallow: */season/200
。
为什么 ESPN(可能还有其他网站)会阻止特定年份的数据被抓取?我知道如果我真的想的话我可以绕过它,但我很好奇为什么一个网站首先会做这样的事情。
有效网址:
https://www.espn.com/nfl/schedule/_/week/1/year/2010/seasontype/2
无效网址:
https://www.espn.com/nfl/schedule/_/week/1/year/2009/seasontype/2
只是猜测,但可能是因为这将有助于促进搜索引擎结果的更新。当人们搜索时间表时,他们最有可能搜索 2010 年以上范围内的时间表,因此将 200x 时间表排除在搜索引擎索引之外可能会有所帮助。