Xpath开始在Scrapy上重新调整无

问题描述 投票:-1回答:1

我正在尝试抓取一个网站并且这样做,我正在使用Scrapy。因此,在对嵌套页面发出请求时,该过程通常会在第一次尝试时正确获取信息,但是在以后的请求中,节点开始返回None。我正在使用xpath的功能。下面我粘贴了一些解析函数:

(我用明确比较类值的方法尝试了这个)

title = response.xpath('//span[@class="inlineFree"]/text()').extract_first()

(有了这个,我用了contains函数)

view = response.xpath('//span[contains(@class,"count")]/text()').extract_first()

(当我发现更合适的时候我也用过这个)

comments = response.css('div.commentMessage > span::text').extract()

我在路径上做错了吗?是否有任何理由让爬虫正确停止读取节点?

dom xpath scrapy web-crawler scrapy-spider
1个回答
0
投票

如果没有日志消息或蜘蛛代码,不能说问题是什么,但大多数时候发生的事情是网站不遵循严格的html结构。对于某些属性,“标题”可能在范围内,但对于下一个迭代它可能是span [@ class =“inlineFree”] / h1 / text()或

或任何其他标记,所以你应该检查html返回无

© www.soinside.com 2019 - 2024. All rights reserved.