如何阻止图像被file_get_contents或wget剪贴,以及如何对其进行抵抗?

问题描述 投票:0回答:1

我的客户在新浪博客上写博客,她只对它的编辑感到满意。因此,在她提交博客后,我将使用一小段代码将图像和文本抓取到她自己的博客网站。其核心是

$url = 'http://s5.sinaimg.cn/bmiddle/001MEJWgzy7xxRaXmDyd4&690';
$img_data = @file_get_contents($url);
$img = file_put_contents('1.jpg',$img_data);

听起来很奇怪,但效果很好,为我们节省了很多时间。但是最近,图像变得有些空白,并带有一些水印。我想新浪终于发现了我们的小dirty俩,阻止了图像被报废。我只是好奇该程序块是如何进行的,更重要的是,还有什么方法可以解决吗?我尝试使用wget http://s5.sinaimg.cn/bmiddle/001MEJWgzy7xxRaXmDyd4&690,它也只能获得空白图像。

image-processing web-scraping file-get-contents
1个回答
0
投票

只是一个建议-网站检测刮板的最简单(也是最可能的方式)是通过查看请求标头,最常见的是“接受”,“推荐人”和“用户代理”。您可以尝试复制“真实”浏览器发送的值,然后将其插入wget调用,如下所示:

希望有帮助!

© www.soinside.com 2019 - 2024. All rights reserved.