我编写了一个抓抓蜘蛛,以从具有多个子页面的网页中抓取数据。每个人都有几个子页面,等等。我想访问所有子页面...并从中获取特定信息。
要深入了解,我想使用xpath()查询后续子页面以获取链接并输入链接。但是要使用xpath,我需要一个scrapy.http.response.html.HtmlResponse
类的对象。因此我写:
from scrapy.http import HtmlResponse
new_response = HtmlResponse(url=subpage_url)
但是当我在这样的对象上执行xpath查询时,我没有得到应该得到的,只是一个空列表。我怀疑是我没有在HtmlResponse()
中指定'body'参数。但是该正文从subpage_url
的HTML中隐藏了,我想从子页面中获取它。我是在做些不适当的事情,还是有更好的方法从具有已知URL的子页面中获取HTML以便xpath查询该HTML?
这就是BeautifulSoup的工作方式。使用链接提取器转到下一页,然后单击所需的项目。使用xpath提取所需的内容。这不是如何使用草皮。