scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

减少代码完成抓取所需的时间

我想减少代码完成抓取页面所需的时间,我正在使用硒。 我在这个抓取项目中使用了 Scrapy,但 JavaScript 隐藏了 Scrapy 中的电子邮件元素。 斯克...

回答 1 投票 0

python中的Scrapycrawlspider发现错误“'str'对象没有属性'iter'”

我遇到了网络抓取错误,但我不明白。我把这个代码贴了3天多了。有人可以帮我指导这个问题吗? 这是我的错误消息 2024-03-15 14:01:18 [...

回答 1 投票 0

Scrapy:在哪里初始化数据库连接,因此它可以在蜘蛛、Pileines 和类中使用和访问

我有一个相当标准的Scrapy项目,它的目录结构如下所示 我的项目 scrapy.cfg 我的项目 __init__.py 项目.py itemsloader.py 中间件.py 我的统计收集...

回答 1 投票 0

抓取分页失败,页面链接处于 for 循环中

我的 scrapy 蜘蛛仅获取第一页的内容。我从主页获取所有分页链接,然后在 for 循环中迭代它们。示例页面网址为“https://www.moneycontrol.com...

回答 1 投票 0

Scrapy - 不同域的不同 download_delay

我正在使用 scrapy 从网站下载一些文章以及文章中的图像。 有关该场景的一些信息: 文章来自主域(jandan.net)

回答 2 投票 0

如何在Scrapy中访问特定统计数据(“finish_reason”,“elapsed_time_seconds”)?

我正在使用 Scrapy,我可以用它从不同的 URL 抓取数据。我试图获得的一件事是统计数据,特别是 finish_reason 和

回答 1 投票 0

Scrapy 错误 - str 对象没有属性 css

文章=response.css(‘.article-main).getall() 莱恩(文章) 到这里我们就得到结果了 艺术=文章[0] Art.css(‘.art2-amp::text’).get() 面对错误 str 对象没有属性 css。注意...

回答 1 投票 0

安装 scrapy 时出错:退出 1 错误

这是我得到的错误。之前工作正常,然后我重新安装了 python(我已将其添加到系统变量中)并安装了 vscode(如果相关的话)。但即使使用 Windows 终端,我也得到了

回答 2 投票 0

Scrapy 请求出现 403 错误,尽管 python 'get' 请求工作正常

尝试使用Scrapy获取少数网站的内容,但它们都返回403(禁止)响应代码。尽管当我使用“get”函数发出请求时,相同的网站工作正常,如下所示: 小鬼...

回答 1 投票 0

安装的Reactor与请求的不符

我正在尝试运行 scrape-playwrights 文档上的示例,在quotes.toscrape.com/scroll 上运行滚动示例,但由于反应器的问题,我什至无法进行抓取...

回答 3 投票 0

用于网页抓取的Scrapy工具。面临错误 str 对象没有属性 css

文章=response.css(‘.article-main).getall() 莱恩(文章) 到这里我们就得到结果了 艺术=文章[0] Art.css(‘.art2-amp::text’).get() 面临错误 str 对象没有属性 css。注意...

回答 1 投票 0

Scrapy:USER_AGENT 和 ROBOTSXTXT_OBEY 设置正确,但我仍然收到错误 403

您好,提前感谢您提供的帮助或指导。这是我的刮刀: 导入scrapy 类 RakutenSpider(scrapy.Spider): 名称=“拉克” allowed_domains = [“rakuten.com”...

回答 2 投票 0

Facebook 市场的 Python scraper 不再工作了

从昨天开始,我遇到了一个问题,我的Facebook市场抓取工具停止获取数据,由于他的功能,我目前正在使用scrapy,我是否做错了什么?输出已共享...

回答 1 投票 0

如何检测亚马逊站点地图

我正在尝试从 amazon.com 抓取一些产品,但我在 robots.txt 中找不到它 我试过 amazon.com/sitemap.xml amazon.com/sitemap.xml.gz amazon.com/sitemap1.xml.gz amazon.com/sitema...

回答 4 投票 0

Parsel 无法访问嵌套元素

我正在与 Parsel 合作。不幸的是,我无法解析 标签,它是另一个 标签的子标签(我知道, 中的 不是 HTML 标准)。我该如何处理...

回答 1 投票 0

为什么我使用 Scrapy 会收到“ReactorNotRestartable”错误?

我在 Google Colab 中使用 Scrapy,但总是收到 ReactorNotRestartable 错误: 图像 首先我使用 pip 安装了 Scrapy,然后使用了以下代码: 导入scrapy 从 scrapy.crawler 导入 CrawlerPro...

回答 2 投票 0

Windows环境下Scrapy-Playwright集成

我正在尝试使用 scrapy-playwright 库来解析/抓取基于 JavsScript 的网站。在工作时,我了解到这与 Windows 系统已知问题不兼容。 我要出去了...

回答 3 投票 0

Scrapy 获取的 HTML 与浏览器显示为源 HTML 的完全不同

我已经进行网页抓取几个月了,正在努力提升水平。最近我开始使用 scrapy。我遇到了一个让我难住的网站:https://www.comperdelivery.com.br/bebida...

回答 1 投票 0

Scrapy Feed 未保存

我正在使用一个 Scrapy 蜘蛛,它成功地抓取了几千个项目(参见下面的日志)并尝试将它们存储到 S3 中。但是,无论我使用什么设置,都不会保存导出。哑光...

回答 1 投票 0

Scrapy - 如何访问特定统计数据(“finish_reason”、“elapsed_time_seconds”)?

我正在使用 Scrapy,我可以用它从不同的 URL 抓取数据。我试图获得的一件事是统计数据,特别是 finish_reason 和

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.