scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

如何在scrapy中发送带有标头和有效负载的Post请求

我正在尝试向 Graph API 发送发布请求,并且成功了,但我想在 scrapy 中发送相同的请求,但我不知道如何在 scrapy 中发送带有标头和有效负载的发布请求。

回答 1 投票 0

如何在scrapy-selenium中绕过cloudflare验证?

我尝试从法国网站上删除专业号码,但收到 403 错误,并且被 Clouflares 阻止。我使用 Selenium 和 Scrapy。我添加了 scrapy cloudflares 中间件,但它仍然......

回答 1 投票 0

如何从带有嵌套跨度的p标签中获取文本内容?

我正在使用 Scrapy 从网站获取一些数据,但在从具有以下结构的 HTML 部分获取文本内容时遇到一些问题: ... 我正在使用 Scrapy 从网站获取一些数据,但从具有此结构的 HTML 部分获取文本内容时遇到一些问题: <div class="price">     <p>         <span class="price-label">             Some label         </span>         Price value     </p> </div> 我的主要目标是获取字符串“价格值”,但正如您所看到的,它被放置在 <p> 标签内,并且在 <span> 标签关闭之后。 此位置使 response.css('.price p ::text').get() 指令返回空字符串,因为它尝试获取 <p> 和 <span> 标签之间的内容。我实现目标的唯一方法是使用字符串方法从 'response.css('.price p').get()` 中删除 <span> 标签,但我认为有一些更好的方法来获取内容。 "".join(response.css('.price p::text').getall()) 是众多可能的解决方案之一。

回答 1 投票 0

scrapy 转换图像

我使用Scrapy爬取一些图像,图像需要剪切一部分或添加水印。我覆盖了 pipelines.py 中的函数convert_image,但它不起作用。代码如下所示: 班级

回答 1 投票 0

为特定的scrapy请求添加延迟

是否可以延迟特定scrapy请求的重试。我有一个中间件,需要将页面的请求推迟到稍后的时间。我知道如何进行基本的延迟(队列末尾......

回答 4 投票 0

ValueError:信号仅在主线程中有效(Python / Scrapy + Flask)

我正在尝试使用 Flask + Scrapy 做一个 API。要点是当用户向我发送带有一些信息(如国家、位置和职位)作为参数的请求时,在 Scrapy 上发出请求...

回答 2 投票 0

无法获取第二级下拉列表的多个选项。它仅适用于一个下拉选项

parse_button 项有问题,如果值有多个选项,我的脚本无法获取下拉列表。 下面是多种组合的场景 场景1 工作 尺寸 6楼...

回答 1 投票 0

为什么Scrapy获取不到这个html?

此包含邮政编码查询字符串的 URL 可在浏览器中正确加载搜索结果: https://www.psychotherapy.org.uk/find-a-therapy/?Location=M3%201AR&Distance=10&page=7 每个...

回答 1 投票 0

从页面获取网址[关闭]

我如何从这个网站获取每个商店的网址: https://maroof.sa/businesses/ 我尝试了很多东西但无法得到它们

回答 1 投票 0

如何将Scrapy爬取的数据以csv或json格式上传到Amazon S3?

将Scrapy爬取的数据以csv/jsonl/json文件上传到Amazon s3的步骤是什么?我从互联网上能找到的就是将抓取的图像上传到 s3 存储桶。 我现在...

回答 4 投票 0

Scrapy - 将图像下载到新创建的文件夹,该文件夹具有刚刚在数据库中保存的记录的 ID

我在SO上发现了类似的问题,但我无法将其拼凑起来使其发挥作用。 我正在从一个网站上抓取数据,其中也有图像。我的 items.py 看起来像这样: 导入scrapy 班级

回答 1 投票 0

Scrapy/Python:在产生的请求完成后运行逻辑

我做什么: def 解析(自身,响应): products_urls = response.css('.product-item a::attr(href)').extract() 对于product_urls中的product_url: 产量请求(product_url,回调= self。

回答 2 投票 0

Scrapy 按特定顺序执行管道

我有几个蜘蛛,它们被设置为一个接一个地被执行,就像 设置 = { ..., “ITEM_PIPELINES”:{ “pipelines.my_spider_pipeline.MySpiderPipeline”:1...

回答 1 投票 0

Python 抓取变体,具有多种尺寸和颜色组合

我正在尝试刮掉各种尺寸和颜色。 下面是以下场景: 所选颜色: -螳螂绿 -线轴黄色 所选尺码: -6磅 -8磅 -10磅 -15磅 -20磅 -30磅 我需要

回答 1 投票 0

如何避免在Python Scrapy中提取重复链接?

我使用Python Scrapy编写了一个简单的示例来遍历网站上的所有链接。但是,extract_links 方法返回重复的地址。我尝试了几种方法,但都没有成功...

回答 1 投票 0

Scrapy、Python:一个管道中的多个项目类?

我有一个蜘蛛,可以抓取无法保存在一个项目类中的数据。 为了便于说明,我有一个配置文件项目,每个配置文件项目可能有未知数量的评论。这就是为什么我...

回答 7 投票 0

无法抓取通过 JavaScript 动态生成内容的网页

我正在尝试从网页中抓取表格数据,但这不是一个可以使用其 html 标签和 CSS 类或 ID 来抓取的普通网页。网页内容是使用

回答 1 投票 0

从包含java的网站中提取网站数据

我如何从该网站提取数据: https://maroof.sa/businesses/details/229217 我是刮擦初学者。

回答 1 投票 0

创建 Xpath 时遇到问题

我面临的问题是 div 类具有相同的名称,但我无法从我附加的屏幕截图的 div 类中获取这些值。我想要的值是“Engineering&Technology, Compu...

回答 1 投票 0

scrapyd 部署失败

回溯(最近一次调用最后一次): 文件“/usr/local/bin/scrapyd-deploy”,第 273 行,位于 主要的() 文件“/usr/local/bin/scrapyd-deploy”,第 95 行,在 main 中 蛋,tmpdir = _build_egg() 文件“/usr/

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.