scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

减少代码完成抓取所需的时间

我想减少代码完成抓取页面所需的时间，我正在使用硒。我在这个抓取项目中使用了 Scrapy，但 JavaScript 隐藏了 Scrapy 中的电子邮件元素。斯克...

python performance selenium-webdriver web-scraping scrapy

回答 1 投票 0

python中的Scrapycrawlspider发现错误“'str'对象没有属性'iter'”

我遇到了网络抓取错误，但我不明白。我把这个代码贴了3天多了。有人可以帮我指导这个问题吗？这是我的错误消息 2024-03-15 14:01:18 [...

python python-3.x visual-studio-code web-scraping scrapy

回答 1 投票 0

Scrapy：在哪里初始化数据库连接，因此它可以在蜘蛛、Pileines 和类中使用和访问

我有一个相当标准的Scrapy项目，它的目录结构如下所示我的项目 scrapy.cfg 我的项目 __init__.py 项目.py itemsloader.py 中间件.py 我的统计收集...

python database scrapy

回答 1 投票 0

抓取分页失败，页面链接处于 for 循环中

我的 scrapy 蜘蛛仅获取第一页的内容。我从主页获取所有分页链接，然后在 for 循环中迭代它们。示例页面网址为“https://www.moneycontrol.com...

python scrapy

回答 1 投票 0

Scrapy - 不同域的不同 download_delay

我正在使用 scrapy 从网站下载一些文章以及文章中的图像。有关该场景的一些信息：文章来自主域（jandan.net）

python scrapy

回答 2 投票 0

如何在Scrapy中访问特定统计数据（“finish_reason”，“elapsed_time_seconds”）？

我正在使用 Scrapy，我可以用它从不同的 URL 抓取数据。我试图获得的一件事是统计数据，特别是 finish_reason 和

python scrapy

回答 1 投票 0

Scrapy 错误 - str 对象没有属性 css

文章=response.css(‘.article-main).getall() 莱恩(文章) 到这里我们就得到结果了艺术=文章[0] Art.css(‘.art2-amp::text’).get() 面对错误 str 对象没有属性 css。注意...

python scrapy

回答 1 投票 0

安装 scrapy 时出错：退出 1 错误

这是我得到的错误。之前工作正常，然后我重新安装了 python（我已将其添加到系统变量中）并安装了 vscode（如果相关的话）。但即使使用 Windows 终端，我也得到了

python scrapy

回答 2 投票 0

Scrapy 请求出现 403 错误，尽管 python 'get' 请求工作正常

尝试使用Scrapy获取少数网站的内容，但它们都返回403（禁止）响应代码。尽管当我使用“get”函数发出请求时，相同的网站工作正常，如下所示：小鬼...

python web-scraping python-requests scrapy get

回答 1 投票 0

安装的Reactor与请求的不符

我正在尝试运行 scrape-playwrights 文档上的示例，在quotes.toscrape.com/scroll 上运行滚动示例，但由于反应器的问题，我什至无法进行抓取...

python scrapy python-asyncio playwright

回答 3 投票 0

用于网页抓取的Scrapy工具。面临错误 str 对象没有属性 css

文章=response.css(‘.article-main).getall() 莱恩(文章) 到这里我们就得到结果了艺术=文章[0] Art.css(‘.art2-amp::text’).get() 面临错误 str 对象没有属性 css。注意...

python scrapy

回答 1 投票 0

Scrapy：USER_AGENT 和 ROBOTSXTXT_OBEY 设置正确，但我仍然收到错误 403

您好，提前感谢您提供的帮助或指导。这是我的刮刀：导入scrapy 类 RakutenSpider(scrapy.Spider): 名称=“拉克” allowed_domains = [“rakuten.com”...

scrapy web-crawler agent

回答 2 投票 0

Facebook 市场的 Python scraper 不再工作了

从昨天开始，我遇到了一个问题，我的Facebook市场抓取工具停止获取数据，由于他的功能，我目前正在使用scrapy，我是否做错了什么？输出已共享...

python parsing scrapy web-crawler marketplace

回答 1 投票 0

如何检测亚马逊站点地图

我正在尝试从 amazon.com 抓取一些产品，但我在 robots.txt 中找不到它我试过 amazon.com/sitemap.xml amazon.com/sitemap.xml.gz amazon.com/sitemap1.xml.gz amazon.com/sitema...

web-scraping scrapy sitemap

回答 4 投票 0

Parsel 无法访问嵌套元素

我正在与 Parsel 合作。不幸的是，我无法解析标签，它是另一个标签的子标签（我知道，中的不是 HTML 标准）。我该如何处理...

python beautifulsoup scrapy lxml parsel

回答 1 投票 0

为什么我使用 Scrapy 会收到“ReactorNotRestartable”错误？

我在 Google Colab 中使用 Scrapy，但总是收到 ReactorNotRestartable 错误：图像首先我使用 pip 安装了 Scrapy，然后使用了以下代码：导入scrapy 从 scrapy.crawler 导入 CrawlerPro...

python web-scraping scrapy

回答 2 投票 0

Windows环境下Scrapy-Playwright集成

我正在尝试使用 scrapy-playwright 库来解析/抓取基于 JavsScript 的网站。在工作时，我了解到这与 Windows 系统已知问题不兼容。我要出去了...

python web-scraping scrapy python-asyncio playwright

回答 3 投票 0

Scrapy 获取的 HTML 与浏览器显示为源 HTML 的完全不同

我已经进行网页抓取几个月了，正在努力提升水平。最近我开始使用 scrapy。我遇到了一个让我难住的网站：https://www.comperdelivery.com.br/bebida...

python html web-scraping scrapy python-requests

回答 1 投票 0

Scrapy Feed 未保存

我正在使用一个 Scrapy 蜘蛛，它成功地抓取了几千个项目（参见下面的日志）并尝试将它们存储到 S3 中。但是，无论我使用什么设置，都不会保存导出。哑光...

python scrapy

回答 1 投票 0

Scrapy - 如何访问特定统计数据（“finish_reason”、“elapsed_time_seconds”）？

我正在使用 Scrapy，我可以用它从不同的 URL 抓取数据。我试图获得的一件事是统计数据，特别是 finish_reason 和

python scrapy

回答 1 投票 0

scrapy 相关问题

最新问题