Scrapy和Ajax请求以获取隐藏元素

Question

我正在开始使用Scrapy，并且有一个网站正试图从中获取数据。具体来说，电话号码元素位于具有ID的div元素内。我注意到，如果我向该页面发送请求，我可以得到它。

我如何抓取所有div元素，将它们与基本URL连接起来，然后检索电话号码元素？

Answer 1

看看xpath。在那里，您应该找到可行的解决方案来选择所需的独特元素。例如。选择具有以divs ... div]开头的id属性的父级a的所有元素"//div[@id='a']/div/"

这样，您可以将结果放入列表中。后者-从列表中提取数字并构建基本字符串是简单的字符串连接。

抓取ID的计数相同。查找独特的指标，以便您可以确保这些是您需要的元素。例如。以下内容。您所需的ID是否与页面上不需要的其他ID不同？

for idx in collected_list:
    url = 'https.com/a/b/'+idx+'/0'