无法从'img'标签中提取'src'属性

问题描述 投票:0回答:1

我正在电子商务网站中抓取高清图像。如开发工具所示,这是包含我想要的url的html块。

<img class="_3togXc _3wp706" alt="" src="https://rukminim1.flixcart.com/image/880/1056/jtn9bww0/t-shirt/5/g/g/m-hm-1001-black-red-helmont-original-imafdfvvr8hqdu65.jpeg?q=50">

但是尝试通过response.xpath('//img[@class="_3togXc _3wp706"]/@src').extract()提取src返回一个空列表。

这里是网页:https://www.flipkart.com/mufti-striped-men-henley-neck-blue-t-shirt/p/itmf97tf5musdzhn?pid=TSHF97EQJFKYZNVR&lid=LSTTSHF97EQJFKYZNVRTO8NYI&marketplace=FLIPKART&srno=b_1_2&otracker=nmenu_sub_Men_0_T-Shirts&fm=organic&iid=en_gnuFJK6aCYh16bFjfooxjvp8RCgW1Qv5%2FUGcIk2pk%2B0jLtbLFo%2BqPL6Dtf5pUqburiU8mTUCC4lmPqYF651UZQ%3D%3D&ppt=browse&ppn=browse&ssid=mjlrz5luxs0000001570554928173

请帮助!谢谢。

python html xpath scrapy src
1个回答
0
投票

检查响应内容。看起来它是在客户端生成的。

此外,您也不应该像这样使用XPath按类选择类,至少不要对每个类使用contains()(或更复杂的https://stackoverflow.com/a/1604480/964478),或者最好使用CSS选择器(img._3togXc._3wp706)。

© www.soinside.com 2019 - 2024. All rights reserved.