scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Scrapy编剧不通过scrapy发送下一个请求

我有下面的例子 导入 json 导入 scrapy 导入 scrapy_playwright 从 scrapy.selector 导入选择器 从 scrapy_playwright.handler 导入页面,PageMethod 类 GreetingsSpider(scrapy.S...

回答 2 投票 0

数据没有被抓取,这里可能是什么问题

我试图使用蜘蛛获取一些数据,但这个蜘蛛没有从网站获取任何数据,这个蜘蛛将关键字数据保存在数据库中,但它总是显示已爬网产品:0 和已爬网...

回答 0 投票 0

payload 对 scrappy request 没有影响

我遇到了一个奇怪的问题。 url = ["https://nr.aws-achat.info/_extranet/index.cfm?fuseaction=mEnt.lister"] 有效载荷= { 'rechInputCPV':'03000000-1', 'rechInputMetie ...

回答 0 投票 0

如果我从请求 Scrapy 得到错误的数据,如何放弃整个响应?

我抓取的页面包含:名称、url1、url2 = 25 个项目。 在 Url2 中,我有包含类似内容的字符串: “q=Dummy&bla=h”或“q=Dummy&bla=g”或“q=Dummy&...

回答 1 投票 0

使用 scrapy 抓取 HTML 页面(SEC 年度报告)的问题

如果我犯了任何明显的错误,我提前道歉,我是 Python 和 Scrapy 的新手。 我正在尝试抓取 Apple 的 10k 表格(表格链接)。具体来说,我只是想抓一张桌子

回答 0 投票 0

CrawlerProcess - 从管理器运行并从 Spider 获取统计数据

我正在尝试为我的蜘蛛创建一个管理器并将每个爬网作业的统计信息记录到一个 sqlite 数据库,不幸的是我无法从一个单独的 python sc 中使用 CrawlerProcess 运行爬虫...

回答 1 投票 0

Scrapy中无法向postgressql写入数据

当我尝试将项目从 Scrapy 写入 DBeaver 中的 postgres 数据库时。它只在第一次创建表,之后没有数据写入 Postgres。当我 exp 时代码工作正常...

回答 0 投票 0

在 scrapy 中单击一个按钮并刷新页面

我正在尝试抓取一个页面,这需要按下按钮并刷新以更新内容。这在浏览器中有效,但不是以编程方式。这是我的代码: example_spider.py 导入 scrapy

回答 0 投票 0

我尝试了很多工具来抓取网站,但都失败了。兄弟们可以吗?

有我抓取的网站。我只知道它是动态的,需要先登录。 我只知道它是动态的,需要先登录。

回答 1 投票 0

尝试制作 os.remove 函数,并让程序写入新的独特文件 [关闭]

我正在尝试获取以下代码以删除现有的已抓取列表。当 os.remove 函数完成并删除文件时,最终在操作时恢复原始文件数据...

回答 0 投票 0

如何从我的 scrapy spider 结果中删除重复项

我正在为学校构建一个爬虫,但我在输出中得到了所有这些重复项。 scrapy 有没有办法从我的输出中删除重复项。我现有的代码在下面。代码很简单b...

回答 1 投票 0

我的 RedisSpider 的并发设置没有达到预期的性能

用scrapy-redis和python3.7写了一个蜘蛛。 我将 CONCURRENT_REQUESTS 设置为 10。 这是我的蜘蛛设置: 自定义设置 = { “DOWNLOADER_MIDDLEWARES”:{ ...

回答 0 投票 0

试图在蜘蛛生成器上用粗糙、奇怪的行为来响应亚马逊的验证码

出于研究原因,我正在为亚马逊创建一个爬虫,但它被他们的验证码捕获了。 所以我做了一个验证码求解器,但我无法响应验证码表单。 问题是……

回答 1 投票 0

使用 Python Scrapy 在 Linkedin Scraper 中阻止 Ip

我是一名研究 scrapy 框架的学生,试图抓取 linkedin 配置文件连接,但我被阻止了,我已经集成了 zyte smarrtproxy 并收到 523 错误。请帮我绕过这个......

回答 0 投票 0

Scrapy如何获取不可见的数据?

如何获取由 JavaScript 呈现且不可见的任何数据?我正在尝试抓取此网页 imobiliare。在这个页面,我发现电话号码是用JS渲染的,也不是

回答 0 投票 0

抓取动态 href

当我运行我的蜘蛛时,我在输出中获取动态内容代码而不是 href 链接。 这是我的代码: def 解析(自我,响应): listingUrls = [] 对于项目响应....

回答 0 投票 0

浏览器标头无法使用 scrapy

我做网页抓取。使用 scrapy 框架的抓取模板进行抓取时出现错误。我想取消 imdb 排名前 250 的电影 初始部分 导入 scrapy 从 scrapy.linkextractors 导入 LinkExtrac...

回答 2 投票 0

如何使用 Scrapy 和 Selenium 从亚马逊网站提取产品信息?

我想用 Scrapy 和 Selenium 从亚马逊网站提取产品信息。 以下源代码连接到亚马逊网站,然后按字母“A”执行搜索。 那我

回答 1 投票 0

Scrapy and python: DNS lookup failed: no results for hostname lookup - proxy issue?

我正在尝试使用 Scrapy 和 Python 从我公司的 IT 和网络中抓取一些页面。我开始使用这里的 scrapy 教程 https://doc.scrapy.org/en/latest/intro/tutorial.h...

回答 2 投票 0

scrapy 运行同一个蜘蛛的数千个实例

我有以下任务: 在数据库中,我们有大约 2k 个 URL。 对于每个 URL,我们需要运行 spider 直到所有 URL 都被处理。 我正在为一堆 URL 运行蜘蛛(一次运行 10 个) 我用过

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.