Xpath开始在Scrapy上重新调整无

Question

我正在尝试抓取一个网站并且这样做，我正在使用Scrapy。因此，在对嵌套页面发出请求时，该过程通常会在第一次尝试时正确获取信息，但是在以后的请求中，节点开始返回None。我正在使用xpath的功能。下面我粘贴了一些解析函数：

（我用明确比较类值的方法尝试了这个）

title = response.xpath('//span[@class="inlineFree"]/text()').extract_first()

（有了这个，我用了contains函数）

view = response.xpath('//span[contains(@class,"count")]/text()').extract_first()

（当我发现更合适的时候我也用过这个）

comments = response.css('div.commentMessage > span::text').extract()

我在路径上做错了吗？是否有任何理由让爬虫正确停止读取节点？

Answer 1

如果没有日志消息或蜘蛛代码，不能说问题是什么，但大多数时候发生的事情是网站不遵循严格的html结构。对于某些属性，“标题”可能在范围内，但对于下一个迭代它可能是span [@ class =“inlineFree”] / h1 / text（）或

或任何其他标记，所以你应该检查html返回无