我正在 datacamp 上制作网络抓取课程 :D
在会议本身中,我们正在抓取数据营网站以获取课程名称和网址 然而, 我试图在我的电脑上的 pycharm 上达到相同的结果,
不幸的是,什么也没发生
我尝试了很多CSS定位器,但相同的结果总是空列表
你能指导我哪里出了问题吗?
from scrapy import 选择器导入请求
url = 'https://www.datacamp.com/courses-all' html = requests.get(url).content sel = 选择器 ( text = html)
课程名称= sel.css('section.css-6b6e9e-Search>article.css-1t5b87c-HitCard>h2.css-172ju3k-Box ::文本').extract()
打印(课程名称)
没有足够的信息,所以我只会解释你在做什么 从 CSS 选择器中我可以看到,您使用的是通用选择器
sel.css('section.css-6b6e9e-Search>article.css-1t5b87c-HitCard>h2.css-172ju3k-Box ::text').extract()
你不应该这样做,因为网站可能每次都会更改类名
只需从开发工具检查该选择器是否在该网站上运行 并尝试打印
的结果sel.css('section > article').get()
如果选择器正确,它应该打印 HTML 标签
希望您在网络抓取方面好运