scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Scrapy:使用列表表达式迭代 href 元素

我目前正在从该网站抓取页面。现在我从第一章页面开始,使用 scrapy 循环浏览章节页面中的文本。我的代码确实起作用了,结果......

回答 1 投票 0

Scrapy 下载图像为具有透明度的 webp,而不是 jpg

Scrapy 似乎默认下载图像为 jpg,但我需要保持透明度的图像。那么如何使用 scrapy 将图像下载为 webp,同时保持透明背景呢?...

回答 1 投票 0

我正在尝试安装Scrapy;但是,这是我遇到的错误: Failed Building Wheel for lxml 。请帮忙

遇到错误 lxml 构建轮子失败 src/lxml/etree.c:96:10:致命错误:找不到“Python.h”文件 #include“Python.h” ^~~~~~~~~~ 生成 1 个错误。 错误:无法构建...

回答 2 投票 0

如何使用scrapy从网页中提取链接?

我正在尝试从遵循特定规则的网页中提取链接。我尝试使用 scrapy 并使用以下代码: 从 scrapy.spiders 导入 CrawlSpider,规则 从 scrapy.linkextractors 导入

回答 1 投票 0

Shopee API 获取产品数据似乎不再起作用(以前可以)

这是一个简单的 scrapy 蜘蛛,任何人都可以用来测试。 从 scrapy.utils.response 导入 open_in_browser 导入scrapy 导入 json 类 TestSpider(scrapy.Spider): 名称=“测试-sp...

回答 1 投票 0

Scrapy 问题 - 当我运行 scrapy 文件时,没有输出

` 导入scrapy AudibleSpider 类(scrapy.Spider): 名称 = '可听' allowed_domains = ['www.audible.com'] def start_requests(自身): 产量 scrapy.Request( 网址=...

回答 1 投票 0

Scrapy:在调用之间保存cookie

有没有办法在scrapy爬虫的调用之间保留cookie?目的 - 网站需要登录,然后通过 cookie 维持会话。我宁愿重复使用会话而不是重新

回答 2 投票 0

无法启动新会话 - 版本不兼容 - Selenium Java

org.seleniumhq.selenium selenium-java ...

回答 1 投票 0

无法使用 scrapy 获得正确的<option>长度

我正在尝试从产品页面查找详细信息。我需要计算保管箱中可用的尺寸选项。然而 len(response.selector.css('[id="tallas_detalle"]').css('option')) 产生 7

回答 1 投票 0

如何从HTML中精确的JSON子节点中提取数据

我正在尝试从 json 格式的网站 (https://www.bergzeit.de/marken/salewa/) 提取产品数据(名称、价格、url)以及可用的尺寸和颜色。我找不到瓦...

回答 1 投票 0

类型错误:“字节”类型的对象不可 JSON 序列化

我刚刚开始Python编程。我想用scrapy创建一个机器人,它显示 类型错误:当我运行项目时,“字节”类型的对象不可 JSON 序列化。 导入 json 导入编解码器

回答 6 投票 0

如何从传单地图中抓取位置数据?

我想访问此网站中找到的水位传感器标记的位置(纬度、经度),但我找不到任何包含其位置的 HTML 标签。 任何指导都会非常

回答 1 投票 0

无效的列名称 - 出了什么问题? [已关闭]

我的数据库 使用[大师] 去 /****** 对象:数据库[公司] 脚本日期:06/07/2021 17:01:26 *****/ 创建数据库[公司] 遏制=无 在小学 ( NAME = N'公司', FILENAM...

回答 1 投票 0

被阻止使用 Scrapy 抓取网站?

我还在尝试从这种URL中抓取搜索结果,这是一份中文在线报纸的搜索结果。 Scrapy 适用于一些请求,然后我得到以下终端...

回答 3 投票 0

如何用Scrapy抓取非标签数据?

我想尝试使用 Scrapy 进行网页抓取,并选择 1 月 1 日的维基百科页面链接作为通用示例,我在提取标签时没有问题: 在[9]中:response.css('div.mw-p...

回答 1 投票 0

scrapy 无法在网格中找到具有简单 css 的产品

我正在尝试从此链接获取产品列表。然而response.css('div.product') 或response.selector.xpath('//div[@class="product"]') 得到任何东西。为什么会发生这种情况?请帮助...

回答 1 投票 0

在 Docker 容器中运行 Scrapy 命令,查看下面我的 Dockerfile

来自 python:3.8 维护者 Darix SAMANI 复制 。 /应用程序 工作目录/应用程序 运行 pip install --升级 pip 运行 pip install -rrequirements.txt 运行 pip install virtualenv 运行 virtualenv 环境 SHELL ["env/bin/

回答 1 投票 0

使用Scrapy(使用用户代理)时被阻止

我正在尝试抓取我国家的一个休闲运动队网站,该网站一直阻止我的 Scrapy 尝试。我尝试过设置用户代理,但没有成功..一旦我运行 Scrapy,我就得到...

回答 1 投票 0

Scrapy已安装,但无法在命令行中识别

我在 Windows 7 的 python 2.7 环境中安装了 Scrapy,但是当我尝试使用 scrapy startproject newProject 启动一个新的 Scrapy 项目时,命令提示符显示此消息 “scrapy”不是

回答 8 投票 0

无法导出JSON文件

以下代码确实以CSV文件格式导出,但不以JSON格式导出。 我不知道问题是什么,也许是因为我无法在我的 scrapy 蜘蛛中使用爬行语法,而我使用

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.