scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

为什么当使用与 OpenSSL 相同的 custom_settings 时,Scrapy 蜘蛛的 SSL 握手会失败?

我正在使用 Scrapy 抓取服务器 SSL 配置错误的网站。 (我无法控制服务器配置)。这会导致 Scrapy(或者 Twisted?)产生 SSL 握手失败

回答 1 投票 0

Scrapy爬取完成,没有爬取所有启动请求

我正在尝试使用 scrapy 库来运行广泛的爬行 - 爬行我解析数百万个网站的位置。蜘蛛连接到 PostgreSQL 数据库。这就是我之前加载未处理的网址的方式

回答 1 投票 0

使用Scrapy从包含特定值的定位标签向上或向下移动一个div

我需要从自定义控件/标签/字体样式中检索价格文本。识别价格属于哪个值的唯一方法是 data-number data-number="025.00286R"...

回答 1 投票 0

Scrapy 不保存抓取的项目

这是我启动蜘蛛的方法: 以 resources.path(SCRAPING_MANIFESTS['systems'], 'manifest.jl') 作为路径: 进程 = CrawlerProcess({ '饲料':{ 小路: { ...

回答 2 投票 0

Scrapy中ItemLoader和ItemAdapter有什么区别?

我知道在scrapy中我们可以定义自定义项目或者只返回简单的Python字典。 I Scrapy 文档有一个关于项目加载器的特定页面,上面写着: 物品装载机提供了方便的

回答 1 投票 0

使用scrapy如何在python中爬取youtube链接

我需要知道使用Scrapy [python],以及如何具体获取网站上的youtube链接,有什么值得赞赏的想法吗?

回答 2 投票 0

使用 scrapy 和 selenium 进行网页抓取的“加载更多”按钮 [编辑]

我目前正在尝试从尼泊尔时报网站上抓取文章。我面临的挑战是该网站使用了“加载更多”按钮,我需要单击该按钮才能加载其他内容

回答 1 投票 0

使用 scrapy 和 selenium 进行网页抓取的“加载更多”按钮

我目前正在尝试从尼泊尔时报网站上抓取文章。我面临的挑战是该网站使用了“加载更多”按钮,我需要单击该按钮才能加载其他内容

回答 1 投票 0

根据邮政编码从超市网页提取产品数量

我正在尝试提取此网页上可用的产品数量: https://www.sklavenitis.gr/eidi-artozacharoplasteioy/keik-tsoyrekia-kroyasan/ 我有使用 scrapy 的代码,它确实能够...

回答 0 投票 0

使用 scrapy 和 selenium 处理网页抓取的“加载更多”按钮

我目前正在尝试从尼泊尔时报网站上抓取文章。我面临的挑战是该网站使用了“加载更多”按钮,我需要单击该按钮才能加载其他内容

回答 0 投票 0

如何使用Scrapy提取标签值和选择器?与标签内容相反

我一直在尝试抓取一个结构不理想的网站。需要一组标签中的信息才能理解另一组标签中的信息,但第二组标签......

回答 0 投票 0

为什么我无法抓取页面中的所有项目? [重复]

我正在尝试抓取此网站中每个房屋的href:https://www.zapimoveis.com.br/venda/imoveis/ma+sao-jose-de-ribamar/。问题是页面有 150 个房子,但我的代码只是乱七八糟...

回答 1 投票 0

使用 Python 标准化空格

我正在使用 scrapy 构建数据提取,并希望规范化从 HTML 文档中提取的原始字符串。这是一个示例字符串: 蓝宝石 RX460 OC 2/4GB 注意两组两个空格

回答 4 投票 0

Scrapy 蜘蛛停止抓取

我正在开发一个 Scrapy 蜘蛛来从网站的多个页面中抓取数据。目标是抓取每个起始URL的所有页面,但我希望蜘蛛在抓取最大数量后停止

回答 1 投票 0

使用scrapy,尝试抓取<a>标签文本,其中<a>标签位于表格中<td>标签

我的代码如下,我试图从表格单元格中抓取信息,一些信息很容易用xpath获取,但是td3中的其他信息有一个a。表格单元格内的标签,我...

回答 0 投票 0

Scrapy:无法使用 css 选择器 attr::img 找到图像

我正在尝试抓取此页面上的一些元素: https://www.liberation.fr/planete/2015/10/26/stupeur-en-argentine-le-candidat-de-kirchner-en-difficulte_1408847/ 我想抓取...的链接

回答 1 投票 0

需要帮助使用 Selenium 和 Python 从网站上抓取所有 URL

我想获取此网站链接上所有配置文件的 URL。 但是在抓取 100 个 URL 之后,代码似乎不起作用。 我认为问题在于新客户被压力加载的方式......

回答 0 投票 0

Scrapy 与剧作家 - 抓取 immoweb

配置:使用 ubuntu 终端在 WSL 上工作。使用 vs 代码在 python 中编码。 安装的模块:scrapy、scrapy-playwright、playwright 项目:从网站 www.immoweb.be 中提取数据(

回答 1 投票 0

如何正确设置请求头以避免验证码

我从二维码中提取了以下地址: https://www.nfce.fazenda.sp.gov.br/qrcode?p=35230547508411150980653010000502991929293282|2|1|1|C34073C1C020480295BCB68D8E4A31C2CA80A1FB 从那个

回答 0 投票 0

如何按顺序发送python scrapy请求(从网站列表->网站->提取网页->网页(直到完成)->其他网站-> ....)?

问题是我想让我的蜘蛛向不同的网站发送请求,在这两者之间我有一个回调,提取当前网站域的所有链接并向他们发送请求,然后...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.