scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

在 Scrapy 中使用经过身份验证的会话进行爬网

在我之前的问题中,我对我的问题不是很具体(使用Scrapy进行经过身份验证的会话进行抓取),希望能够从更一般的答案中推断出解决方案。我

回答 5 投票 0

Scrapy Playwright 仅渲染网站的一部分

我一直在尝试使用 Scrapy 2.11.2 及其 Scrapy/Playwright 插件 (0.0.34) 从网站上抓取数据。 这是我正在尝试抓取的网站:这里。 问题是网络...

回答 1 投票 0

Scrapy 芹菜

如何在我的任务中以 2 分钟的间隔按顺序(一个接一个)运行蜘蛛? 信号.py @receiver(post_save, 发件人=ParseCategoryUrl) def start_parse_from_category_url(发件人, 创建,

回答 1 投票 0

Python - 如何向egg添加目录?

我有一个具有以下结构的小项目: /我的项目 /我的数据 /我的项目 .gitignore 要求.txt scrapy.cfg 安装程序.py setup.py 看起来像这样: # 自动

回答 1 投票 0

scrapy 2.11.2 | ModuleNotFoundError:没有名为“scrapy.cmdline”的模块

我创建了一个虚拟环境,并通过pip安装了scrapy,但是当我运行scrapy命令时,出现以下错误。我希望有人遇到过这个问题并能够帮助解决问题。

回答 1 投票 0

Selenium Click() 不适用于 scrapy 蜘蛛

我正在尝试使用 scrapy 蜘蛛从列表页面抓取产品页面的链接。该页面显示前 10 台机器,并有一个调用一些 javascript 的“显示所有机器”按钮。

回答 2 投票 0

让 scrapy 和 pytest 与 AsyncioSelectorReactor 一起使用

重现我的问题 蟒蛇3.12.1 爬虫2.11.2 pytest 8.2.1 在 bookspider.py 中我有: 从输入 import Iterable 导入scrapy 从 scrapy.http 导入请求 类 BookSpider(scrapy.Spider)...

回答 1 投票 0

KeyError:'playwright_page'

async def errback_close_page(self, failure): 页面 = failure.request.meta["playwright_page"] 等待页面.close() def start_requests(自身): 如果不是 self.start_urls 和

回答 1 投票 0

AttributeError:模块“OpenSSL.SSL”没有属性“SSLv3_METHOD”

使用定义的 url 运行 scrapy shell 后,我收到属性错误,显示以下错误: AttributeError:模块“OpenSSL.SSL”没有属性“SSLv3_METHOD” scrapy外壳...

回答 6 投票 0

如何构建像 Ahrefs 这样可扩展的网络抓取和数据分析基础设施?

我正在寻求构建一个可扩展的基础设施,用于网络抓取和数据分析,类似于 Ahrefs 所做的事情。我需要以下技术方面的建议: 网页抓取框架:什么是...

回答 1 投票 0

如何在一个Python脚本中调用2个Scrapy蜘蛛?

我正在使用Scrapy CrawlSpider类来爬取电子商务网站的类别页面。问题是,大约 5% 的请求在 5 次重试后被拒绝,并且不会达到已知的 100%

回答 2 投票 0

使用 URL 链接抓取网页内容

编写了一个蜘蛛代码,用于抓取标题、url 链接和其中的内容。 导入scrapy 从 scrapy.selector 导入选择器 类 FoolSpider(scrapy.Spider): 名字=“傻瓜” def start_reque...

回答 1 投票 0

Scrapy-Selenium 加载更多按钮

我编写了一段代码,用于通过加载更多按钮来抓取网站。我只在按钮之前获取内容。 导入scrapy 从 load_more.items 导入 LoadMoreItem 从 scrapy_selenium 导入

回答 1 投票 0

Scrapy 使用带有规则的 start_requests

我找不到任何使用带有规则的start_requests的解决方案,而且我还没有在互联网上看到任何关于这两个的示例。我的目的很简单,我想重新定义 start_request 函数以获得一个

回答 3 投票 0

强迫我的scrapy蜘蛛停止爬行

当特定条件为真时(例如 scrap_item_id == predefine_value ),是否有机会停止抓取。我的问题类似于 Scrapy - 如何识别已经抓取的网址,但我想......

回答 5 投票 0

异步启动请求scrapy

嗨,我用 scrapy 编写了一段代码,它可以工作,但是当我将其更改为异步代码时,我收到此错误 [等待 process.crawl(WebSpider, start_urls=urls) 文件“/home/z/PycharmProjects/news-link-

回答 1 投票 0

Django Scrapy TypeError:RepoSpider.start_requests() 缺少 1 个必需的位置参数:'url'

我正在尝试构建一个网络应用程序来从存储库获取数据。它已接近完成,但我目前面临这个错误。 代码: 这是蜘蛛代码 导入scrapy 从 App.models 导入 Repo 班级

回答 1 投票 0

Python 中的 Scrapy 安装问题

来自 scrapy 导入选择器 # 导入请求 导入请求 url = 'https://en.wikipedia.org/wiki/巴基斯坦' # 获取网页的HTML内容 响应 = requests.get(url) # 创建 Se...

回答 1 投票 0

Scrapy 函数未调用

每当我使用 parse_quote 函数时,什么也没有发生,我只是得到一个空白的 CSV 文件,但如果我将所有报价项放入解析函数中,它就能够抓取报价。我究竟做错了什么? 定义...

回答 1 投票 0

使用 LinkExtactor Scrapy 提取链接时排除 CSS

我一直在进行 3 级深度爬行,我需要排除一些 CSS 类,如页眉和页脚,我尝试使用属性“restrict_css”和 :not(“#header”...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.