如何使用scrapy提取表内的项目

Question

我想提取下面链接表中列出的所有函数：python functions list

我尝试使用chrome开发人员控制台来获取在spider.py文件中使用的确切xpath，如下所示：

$x('//*[@id="built-in-functions"]/table[1]/tbody//a/@href')

但是这会返回所有href的列表（我认为xpath表达式引用的是什么）。

我需要从这里提取文本我相信但是将/text()附加到上面的xpath没有返回任何内容。有人可以帮我从表中提取函数名称。

Answer 1

我认为这应该可以解决问题

response.css('.docutils .reference .pre::text').extract()

一个非精确的xpath等价物（但在这种情况下也适用）将是：

response.xpath('//table[contains(@class, "docutils")]//*[contains(@class, "reference")]//*[contains(@class, "pre")]/text()').extract()

Answer 2

试试这个：

for td in response.css("#built-in-functions > table:nth-child(4) td"):
    td.css("span.pre::text").extract_first()