scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

在 Scrapy 中使用经过身份验证的会话进行爬网

在我之前的问题中，我对我的问题不是很具体（使用Scrapy进行经过身份验证的会话进行抓取），希望能够从更一般的答案中推断出解决方案。我

python scrapy

回答 5 投票 0

Scrapy Playwright 仅渲染网站的一部分

我一直在尝试使用 Scrapy 2.11.2 及其 Scrapy/Playwright 插件 (0.0.34) 从网站上抓取数据。这是我正在尝试抓取的网站：这里。问题是网络...

web-scraping scrapy playwright scrapy-playwright

回答 1 投票 0

Scrapy 芹菜

如何在我的任务中以 2 分钟的间隔按顺序（一个接一个）运行蜘蛛？信号.py @receiver(post_save, 发件人=ParseCategoryUrl) def start_parse_from_category_url(发件人, 创建,

python scrapy celery python-asyncio django-celery

回答 1 投票 0

Python - 如何向egg添加目录？

我有一个具有以下结构的小项目： /我的项目 /我的数据 /我的项目 .gitignore 要求.txt scrapy.cfg 安装程序.py setup.py 看起来像这样： # 自动

python scrapy python-packaging egg

回答 1 投票 0

scrapy 2.11.2 | ModuleNotFoundError：没有名为“scrapy.cmdline”的模块

我创建了一个虚拟环境，并通过pip安装了scrapy，但是当我运行scrapy命令时，出现以下错误。我希望有人遇到过这个问题并能够帮助解决问题。

scrapy

回答 1 投票 0

Selenium Click() 不适用于 scrapy 蜘蛛

我正在尝试使用 scrapy 蜘蛛从列表页面抓取产品页面的链接。该页面显示前 10 台机器，并有一个调用一些 javascript 的“显示所有机器”按钮。

javascript selenium-webdriver click web-crawler scrapy

回答 2 投票 0

让 scrapy 和 pytest 与 AsyncioSelectorReactor 一起使用

重现我的问题蟒蛇3.12.1 爬虫2.11.2 pytest 8.2.1 在 bookspider.py 中我有：从输入 import Iterable 导入scrapy 从 scrapy.http 导入请求类 BookSpider(scrapy.Spider)...

python scrapy pytest python-asyncio twisted

回答 1 投票 0

KeyError：'playwright_page'

async def errback_close_page(self, failure): 页面 = failure.request.meta["playwright_page"] 等待页面.close() def start_requests(自身): 如果不是 self.start_urls 和

scrapy playwright playwright-python

回答 1 投票 0

AttributeError：模块“OpenSSL.SSL”没有属性“SSLv3_METHOD”

使用定义的 url 运行 scrapy shell 后，我收到属性错误，显示以下错误： AttributeError：模块“OpenSSL.SSL”没有属性“SSLv3_METHOD” scrapy外壳...

python python-3.x web-scraping scrapy

回答 6 投票 0

如何构建像 Ahrefs 这样可扩展的网络抓取和数据分析基础设施？

我正在寻求构建一个可扩展的基础设施，用于网络抓取和数据分析，类似于 Ahrefs 所做的事情。我需要以下技术方面的建议：网页抓取框架：什么是...

mongodb web-scraping neo4j scrapy bigdata

回答 1 投票 0

如何在一个Python脚本中调用2个Scrapy蜘蛛？

我正在使用Scrapy CrawlSpider类来爬取电子商务网站的类别页面。问题是，大约 5% 的请求在 5 次重试后被拒绝，并且不会达到已知的 100%

python scrapy

回答 2 投票 0

使用 URL 链接抓取网页内容

编写了一个蜘蛛代码，用于抓取标题、url 链接和其中的内容。导入scrapy 从 scrapy.selector 导入选择器类 FoolSpider(scrapy.Spider): 名字=“傻瓜” def start_reque...

web-scraping scrapy

回答 1 投票 0

Scrapy-Selenium 加载更多按钮

我编写了一段代码，用于通过加载更多按钮来抓取网站。我只在按钮之前获取内容。导入scrapy 从 load_more.items 导入 LoadMoreItem 从 scrapy_selenium 导入

python selenium-webdriver scrapy

回答 1 投票 0

Scrapy 使用带有规则的 start_requests

我找不到任何使用带有规则的start_requests的解决方案，而且我还没有在互联网上看到任何关于这两个的示例。我的目的很简单，我想重新定义 start_request 函数以获得一个

scrapy web-crawler

回答 3 投票 0

强迫我的scrapy蜘蛛停止爬行

当特定条件为真时（例如 scrap_item_id == predefine_value ），是否有机会停止抓取。我的问题类似于 Scrapy - 如何识别已经抓取的网址，但我想......

python scrapy

回答 5 投票 0

异步启动请求scrapy

嗨，我用 scrapy 编写了一段代码，它可以工作，但是当我将其更改为异步代码时，我收到此错误 [等待 process.crawl(WebSpider, start_urls=urls) 文件“/home/z/PycharmProjects/news-link-

python async-await scrapy

回答 1 投票 0

Django Scrapy TypeError：RepoSpider.start_requests() 缺少 1 个必需的位置参数：'url'

我正在尝试构建一个网络应用程序来从存储库获取数据。它已接近完成，但我目前面临这个错误。代码：这是蜘蛛代码导入scrapy 从 App.models 导入 Repo 班级

python-3.x django scrapy

回答 1 投票 0

Python 中的 Scrapy 安装问题

来自 scrapy 导入选择器 # 导入请求导入请求 url = 'https://en.wikipedia.org/wiki/巴基斯坦' # 获取网页的HTML内容响应 = requests.get(url) # 创建 Se...

python html css web-scraping scrapy

回答 1 投票 0

Scrapy 函数未调用

每当我使用 parse_quote 函数时，什么也没有发生，我只是得到一个空白的 CSV 文件，但如果我将所有报价项放入解析函数中，它就能够抓取报价。我究竟做错了什么？定义...

web-scraping scrapy scrapy-splash

回答 1 投票 0

使用 LinkExtactor Scrapy 提取链接时排除 CSS

我一直在进行 3 级深度爬行，我需要排除一些 CSS 类，如页眉和页脚，我尝试使用属性“restrict_css”和 :not(“#header”...

python scrapy

回答 1 投票 0

scrapy 相关问题

最新问题