Scrapy:如何根据URL正确创建scrapy.http.response.html.HtmlResponse对象

问题描述 投票:0回答:1

我编写了一个抓抓蜘蛛,以从具有多个子页面的网页中抓取数据。每个人都有几个子页面,等等。我想访问所有子页面...并从中获取特定信息。

要深入了解,我想使用xpath()查询后续子页面以获取链接并输入链接。但是要使用xpath,我需要一个scrapy.http.response.html.HtmlResponse类的对象。因此我写:

from scrapy.http import HtmlResponse

new_response =  HtmlResponse(url=subpage_url)

但是当我在这样的对象上执行xpath查询时,我没有得到应该得到的,只是一个空列表。我怀疑是我没有在HtmlResponse()中指定'body'参数。但是该正文从subpage_url的HTML中隐藏了,我想从子页面中获取它。我是在做些不适当的事情,还是有更好的方法从具有已知URL的子页面中获取HTML以便xpath查询该HTML?

python web-scraping scrapy
1个回答
0
投票

这就是BeautifulSoup的工作方式。使用链接提取器转到下一页,然后单击所需的项目。使用xpath提取所需的内容。这不是如何使用草皮。

© www.soinside.com 2019 - 2024. All rights reserved.