Scrapy：如何根据URL正确创建scrapy.http.response.html.HtmlResponse对象

Question

我编写了一个抓抓蜘蛛，以从具有多个子页面的网页中抓取数据。每个人都有几个子页面，等等。我想访问所有子页面...并从中获取特定信息。

要深入了解，我想使用xpath（）查询后续子页面以获取链接并输入链接。但是要使用xpath，我需要一个scrapy.http.response.html.HtmlResponse类的对象。因此我写：

from scrapy.http import HtmlResponse

new_response =  HtmlResponse(url=subpage_url)

但是当我在这样的对象上执行xpath查询时，我没有得到应该得到的，只是一个空列表。我怀疑是我没有在HtmlResponse()中指定'body'参数。但是该正文从subpage_url的HTML中隐藏了，我想从子页面中获取它。我是在做些不适当的事情，还是有更好的方法从具有已知URL的子页面中获取HTML以便xpath查询该HTML？

Answer 1

这就是BeautifulSoup的工作方式。使用链接提取器转到下一页，然后单击所需的项目。使用xpath提取所需的内容。这不是如何使用草皮。

Scrapy：如何根据URL正确创建scrapy.http.response.html.HtmlResponse对象

问题描述投票：0回答：1

1个回答

最新问题

Scrapy：如何根据URL正确创建scrapy.http.response.html.HtmlResponse对象

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1