scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

如何在scrapy中发送带有标头和有效负载的Post请求

我正在尝试向 Graph API 发送发布请求，并且成功了，但我想在 scrapy 中发送相同的请求，但我不知道如何在 scrapy 中发送带有标头和有效负载的发布请求。

python web-scraping scrapy data-mining data-extraction

回答 1 投票 0

如何在scrapy-selenium中绕过cloudflare验证？

我尝试从法国网站上删除专业号码，但收到 403 错误，并且被 Clouflares 阻止。我使用 Selenium 和 Scrapy。我添加了 scrapy cloudflares 中间件，但它仍然......

python selenium-webdriver web-scraping scrapy scrapy-selenium

回答 1 投票 0

如何从带有嵌套跨度的p标签中获取文本内容？

我正在使用 Scrapy 从网站获取一些数据，但在从具有以下结构的 HTML 部分获取文本内容时遇到一些问题： ... 我正在使用 Scrapy 从网站获取一些数据，但从具有此结构的 HTML 部分获取文本内容时遇到一些问题： <div class="price"> <p> <span class="price-label"> Some label </span> Price value </p> </div> 我的主要目标是获取字符串“价格值”，但正如您所看到的，它被放置在 <p> 标签内，并且在 <span> 标签关闭之后。此位置使 response.css('.price p ::text').get() 指令返回空字符串，因为它尝试获取 <p> 和 <span> 标签之间的内容。我实现目标的唯一方法是使用字符串方法从 'response.css('.price p').get()` 中删除 <span> 标签，但我认为有一些更好的方法来获取内容。 "".join(response.css('.price p::text').getall()) 是众多可能的解决方案之一。

web-scraping scrapy

回答 1 投票 0

scrapy 转换图像

我使用Scrapy爬取一些图像，图像需要剪切一部分或添加水印。我覆盖了 pipelines.py 中的函数convert_image，但它不起作用。代码如下所示：班级

scrapy

回答 1 投票 0

为特定的scrapy请求添加延迟

是否可以延迟特定scrapy请求的重试。我有一个中间件，需要将页面的请求推迟到稍后的时间。我知道如何进行基本的延迟（队列末尾......

python scrapy

回答 4 投票 0

ValueError：信号仅在主线程中有效（Python / Scrapy + Flask）

我正在尝试使用 Flask + Scrapy 做一个 API。要点是当用户向我发送带有一些信息（如国家、位置和职位）作为参数的请求时，在 Scrapy 上发出请求...

python flask scrapy

回答 2 投票 0

无法获取第二级下拉列表的多个选项。它仅适用于一个下拉选项

parse_button 项有问题，如果值有多个选项，我的脚本无法获取下拉列表。下面是多种组合的场景场景1 工作尺寸 6楼...

python beautifulsoup scrapy

回答 1 投票 0

为什么Scrapy获取不到这个html？

此包含邮政编码查询字符串的 URL 可在浏览器中正确加载搜索结果： https://www.psychotherapy.org.uk/find-a-therapy/?Location=M3%201AR&Distance=10&page=7 每个...

web-scraping scrapy

回答 1 投票 0

从页面获取网址[关闭]

我如何从这个网站获取每个商店的网址： https://maroof.sa/businesses/ 我尝试了很多东西但无法得到它们

python beautifulsoup scrapy

回答 1 投票 0

如何将Scrapy爬取的数据以csv或json格式上传到Amazon S3？

将Scrapy爬取的数据以csv/jsonl/json文件上传到Amazon s3的步骤是什么？我从互联网上能找到的就是将抓取的图像上传到 s3 存储桶。我现在...

python json amazon-s3 web-scraping scrapy

回答 4 投票 0

Scrapy - 将图像下载到新创建的文件夹，该文件夹具有刚刚在数据库中保存的记录的 ID

我在SO上发现了类似的问题，但我无法将其拼凑起来使其发挥作用。我正在从一个网站上抓取数据，其中也有图像。我的 items.py 看起来像这样：导入scrapy 班级

python scrapy scrapy-pipeline

回答 1 投票 0

Scrapy/Python：在产生的请求完成后运行逻辑

我做什么： def 解析（自身，响应）： products_urls = response.css('.product-item a::attr(href)').extract() 对于product_urls中的product_url：产量请求（product_url，回调= self。

python scrapy

回答 2 投票 0

Scrapy 按特定顺序执行管道

我有几个蜘蛛，它们被设置为一个接一个地被执行，就像设置 = { ..., “ITEM_PIPELINES”：{ “pipelines.my_spider_pipeline.MySpiderPipeline”：1...

python scrapy scrapy-pipeline

回答 1 投票 0

Python 抓取变体，具有多种尺寸和颜色组合

我正在尝试刮掉各种尺寸和颜色。下面是以下场景：所选颜色： -螳螂绿 -线轴黄色所选尺码： -6磅 -8磅 -10磅 -15磅 -20磅 -30磅我需要

python selenium-webdriver scrapy

回答 1 投票 0

如何避免在Python Scrapy中提取重复链接？

我使用Python Scrapy编写了一个简单的示例来遍历网站上的所有链接。但是，extract_links 方法返回重复的地址。我尝试了几种方法，但都没有成功...

python scrapy

回答 1 投票 0

Scrapy、Python：一个管道中的多个项目类？

我有一个蜘蛛，可以抓取无法保存在一个项目类中的数据。为了便于说明，我有一个配置文件项目，每个配置文件项目可能有未知数量的评论。这就是为什么我...

python scrapy pipeline

回答 7 投票 0

无法抓取通过 JavaScript 动态生成内容的网页

我正在尝试从网页中抓取表格数据，但这不是一个可以使用其 html 标签和 CSS 类或 ID 来抓取的普通网页。网页内容是使用

javascript python selenium-webdriver web-scraping scrapy

回答 1 投票 0

从包含java的网站中提取网站数据

我如何从该网站提取数据： https://maroof.sa/businesses/details/229217 我是刮擦初学者。

python beautifulsoup scrapy

回答 1 投票 0

创建 Xpath 时遇到问题

我面临的问题是 div 类具有相同的名称，但我无法从我附加的屏幕截图的 div 类中获取这些值。我想要的值是“Engineering&Technology, Compu...

web-scraping scrapy

回答 1 投票 0

scrapyd 部署失败

回溯（最近一次调用最后一次）：文件“/usr/local/bin/scrapyd-deploy”，第 273 行，位于主要的（）文件“/usr/local/bin/scrapyd-deploy”，第 95 行，在 main 中蛋，tmpdir = _build_egg() 文件“/usr/

python scrapy scrapyd

回答 3 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.