scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Django Scrapy TypeError:RepoSpider.start_requests() 缺少 1 个必需的位置参数:'url'

我正在尝试构建一个网络应用程序来从存储库获取数据。它已接近完成,但我目前面临这个错误。 代码: 这是蜘蛛代码 导入scrapy 从 App.models 导入 Repo 班级

回答 1 投票 0

Python 中的 Scrapy 安装问题

来自 scrapy 导入选择器 # 导入请求 导入请求 url = 'https://en.wikipedia.org/wiki/巴基斯坦' # 获取网页的HTML内容 响应 = requests.get(url) # 创建 Se...

回答 1 投票 0

Scrapy 函数未调用

每当我使用 parse_quote 函数时,什么也没有发生,我只是得到一个空白的 CSV 文件,但如果我将所有报价项放入解析函数中,它就能够抓取报价。我究竟做错了什么? 定义...

回答 1 投票 0

使用 LinkExtactor Scrapy 提取链接时排除 CSS

我一直在进行 3 级深度爬行,我需要排除一些 CSS 类,如页眉和页脚,我尝试使用属性“restrict_css”和 :not(“#header”...

回答 1 投票 0

Scrapy 网络爬虫尽管最初工作正常,但仍陷入无限循环。

好吧,我正在开发一个基于scrapy的网络爬虫,具有一些简单的功能。该机器人应该从一个页面转到另一个页面,解析然后下载。我已经让解析器开始工作了,我已经

回答 1 投票 0

Selenium 单击存储在变量中的已知元素

我正在使用Scrapy和Selenium。 scrapy 完成一些工作后,我将可点击元素存储在变量中,因此我认为 driver.find_element_by 不是必需的,因为元素已经已知。所以我...

回答 1 投票 0

DEBUG:第 3 行的规则,没有任何用户代理在 Python Scrapy 上强制执行它

我正在尝试使用 Scrapy CrawlSpider 类从网站上抓取内容,但我被以下响应阻止。我想上面的错误与我的爬虫的用户代理有关。所以我...

回答 2 投票 0

Scrapy - 将 Feed Exporter Overwrite 设置为 True

我开发了一个Scrapy蜘蛛,我想在不使用命令行的情况下执行它。这就是我使用 CrawlerProcess 的原因。我还希望将输出保存到 json 文件中。饲料出口商是完美的...

回答 1 投票 0

如何在python scrapy中获取队列中的请求数量?

在下面的代码中, len(self.crawler.engine.slot.scheduler) 总是返回 0 self.crawler.engine.slot.scheduler.stats._stats['scheduler/enqueued'] 按升序返回值:1, 2,...

回答 1 投票 0

我尝试使用 scrapy playwright 滚动浏览网上商店以抓取所有产品,但它不起作用

我尝试单击“加载更多”按钮,直到它消失并加载所有产品。然后我想点击所有单个产品以从各个产品中抓取我需要的数据...

回答 1 投票 0

如何使用selenium python点击打印图标?

如果在 chrome 浏览器中打开 pdf,我尝试单击打印图标,但我无法单击打印图标,请参阅下面的屏幕截图任何人都可以提供帮助。 代码:- 导入时间 来自硒

回答 1 投票 0

使用python“BeautifulSoup”库,但无法打印出我抓取的网站上的数据

目前,我正在使用一个名为 BeautifulSoup 的 Python 库从 WEB 上抓取一些东西 但我发现我抓到的数据无法打印出来 这是我的代码快照,如下所示 导入

回答 1 投票 0

没有 <a> 节点/href 属性的 Scrapy web

相信你做得很好! 我需要您的支持,我正在尝试抓取此网页:https://servicio.mapa.gob.es/regfiweb# 进入后,您必须前往: 布斯卡多雷斯。 产品。 我愿意

回答 1 投票 0

导入错误:没有名为管道的模块 - Scrapy/PyInstaller

我正在尝试从 Scrapy 项目创建一个 exe 文件。我必须添加数十个隐藏导入以避免错误,但现在我收到 ImportError: No module named pipelines ,我不知道该怎么办。 博...

回答 3 投票 0

无法从 Zara 抓取图像网址

我正在尝试从 Zara 抓取图像 url,但我唯一想到的是透明背景的 url。 这是我试图抓取的链接:https://static.zara.net/photos///2022/V/...

回答 1 投票 0

使用scrapy提取<li>和<ul>

我是Scrapy的新手,但我遇到了一个问题,即根据scrapy的教程代码形成准确的选择器,基本上我正在尝试列出所有业务、他们的地址和他们的网站。但当我...

回答 2 投票 0

使用 scrapy 从此网站抓取数据

我对数据抓取和学习绳索很菜鸟 我将从该网站抓取数据值,https://www.twhouse.co.uk/index.php?route=product/catalog。 我正在使用 scrapy shell 来询问...

回答 2 投票 0

如何在scrapy中发送带有标头和有效负载的Post请求

我正在尝试向 Graph API 发送发布请求,并且成功了,但我想在 scrapy 中发送相同的请求,但我不知道如何在 scrapy 中发送带有标头和有效负载的发布请求。

回答 1 投票 0

如何在scrapy-selenium中绕过cloudflare验证?

我尝试从法国网站上删除专业号码,但收到 403 错误,并且被 Clouflares 阻止。我使用 Selenium 和 Scrapy。我添加了 scrapy cloudflares 中间件,但它仍然......

回答 1 投票 0

如何从带有嵌套跨度的p标签中获取文本内容?

我正在使用 Scrapy 从网站获取一些数据,但在从具有以下结构的 HTML 部分获取文本内容时遇到一些问题: ... 我正在使用 Scrapy 从网站获取一些数据,但从具有此结构的 HTML 部分获取文本内容时遇到一些问题: <div class="price">     <p>         <span class="price-label">             Some label         </span>         Price value     </p> </div> 我的主要目标是获取字符串“价格值”,但正如您所看到的,它被放置在 <p> 标签内,并且在 <span> 标签关闭之后。 此位置使 response.css('.price p ::text').get() 指令返回空字符串,因为它尝试获取 <p> 和 <span> 标签之间的内容。我实现目标的唯一方法是使用字符串方法从 'response.css('.price p').get()` 中删除 <span> 标签,但我认为有一些更好的方法来获取内容。 "".join(response.css('.price p::text').getall()) 是众多可能的解决方案之一。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.