Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。
我有下面的例子 导入 json 导入 scrapy 导入 scrapy_playwright 从 scrapy.selector 导入选择器 从 scrapy_playwright.handler 导入页面,PageMethod 类 GreetingsSpider(scrapy.S...
我试图使用蜘蛛获取一些数据,但这个蜘蛛没有从网站获取任何数据,这个蜘蛛将关键字数据保存在数据库中,但它总是显示已爬网产品:0 和已爬网...
payload 对 scrappy request 没有影响
我遇到了一个奇怪的问题。 url = ["https://nr.aws-achat.info/_extranet/index.cfm?fuseaction=mEnt.lister"] 有效载荷= { 'rechInputCPV':'03000000-1', 'rechInputMetie ...
如果我从请求 Scrapy 得到错误的数据,如何放弃整个响应?
我抓取的页面包含:名称、url1、url2 = 25 个项目。 在 Url2 中,我有包含类似内容的字符串: “q=Dummy&bla=h”或“q=Dummy&bla=g”或“q=Dummy&...
使用 scrapy 抓取 HTML 页面(SEC 年度报告)的问题
如果我犯了任何明显的错误,我提前道歉,我是 Python 和 Scrapy 的新手。 我正在尝试抓取 Apple 的 10k 表格(表格链接)。具体来说,我只是想抓一张桌子
CrawlerProcess - 从管理器运行并从 Spider 获取统计数据
我正在尝试为我的蜘蛛创建一个管理器并将每个爬网作业的统计信息记录到一个 sqlite 数据库,不幸的是我无法从一个单独的 python sc 中使用 CrawlerProcess 运行爬虫...
当我尝试将项目从 Scrapy 写入 DBeaver 中的 postgres 数据库时。它只在第一次创建表,之后没有数据写入 Postgres。当我 exp 时代码工作正常...
我正在尝试抓取一个页面,这需要按下按钮并刷新以更新内容。这在浏览器中有效,但不是以编程方式。这是我的代码: example_spider.py 导入 scrapy
尝试制作 os.remove 函数,并让程序写入新的独特文件 [关闭]
我正在尝试获取以下代码以删除现有的已抓取列表。当 os.remove 函数完成并删除文件时,最终在操作时恢复原始文件数据...
我正在为学校构建一个爬虫,但我在输出中得到了所有这些重复项。 scrapy 有没有办法从我的输出中删除重复项。我现有的代码在下面。代码很简单b...
用scrapy-redis和python3.7写了一个蜘蛛。 我将 CONCURRENT_REQUESTS 设置为 10。 这是我的蜘蛛设置: 自定义设置 = { “DOWNLOADER_MIDDLEWARES”:{ ...
出于研究原因,我正在为亚马逊创建一个爬虫,但它被他们的验证码捕获了。 所以我做了一个验证码求解器,但我无法响应验证码表单。 问题是……
使用 Python Scrapy 在 Linkedin Scraper 中阻止 Ip
我是一名研究 scrapy 框架的学生,试图抓取 linkedin 配置文件连接,但我被阻止了,我已经集成了 zyte smarrtproxy 并收到 523 错误。请帮我绕过这个......
如何获取由 JavaScript 呈现且不可见的任何数据?我正在尝试抓取此网页 imobiliare。在这个页面,我发现电话号码是用JS渲染的,也不是
当我运行我的蜘蛛时,我在输出中获取动态内容代码而不是 href 链接。 这是我的代码: def 解析(自我,响应): listingUrls = [] 对于项目响应....
我做网页抓取。使用 scrapy 框架的抓取模板进行抓取时出现错误。我想取消 imdb 排名前 250 的电影 初始部分 导入 scrapy 从 scrapy.linkextractors 导入 LinkExtrac...
如何使用 Scrapy 和 Selenium 从亚马逊网站提取产品信息?
我想用 Scrapy 和 Selenium 从亚马逊网站提取产品信息。 以下源代码连接到亚马逊网站,然后按字母“A”执行搜索。 那我
Scrapy and python: DNS lookup failed: no results for hostname lookup - proxy issue?
我正在尝试使用 Scrapy 和 Python 从我公司的 IT 和网络中抓取一些页面。我开始使用这里的 scrapy 教程 https://doc.scrapy.org/en/latest/intro/tutorial.h...
我有以下任务: 在数据库中,我们有大约 2k 个 URL。 对于每个 URL,我们需要运行 spider 直到所有 URL 都被处理。 我正在为一堆 URL 运行蜘蛛(一次运行 10 个) 我用过