scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

使用CrawlerRunner时无法设置LOG_LEVEL

我正在使用 CrawlerRunner 运行蜘蛛,我需要设置日志记录级别。 以下是启动抓取工具的代码: 导入操作系统 导入系统 导入日志记录 从 scrapy.crawler 导入 CrawlerRunner

回答 1 投票 0

如何在scrapy中修复Crawled(403)禁止?

def start_requests(自我): 网址 = [ 'https://www.irrawaddy.com/category/business/feed' ] 对于 url 中的 url: 产量 scrapy.Request(url, headers=self.headers,callback=self.pa...

回答 1 投票 0

为什么 espn.com 不允许某些年份被抓取?

我正在使用 scrapy 从 ESPN 抓取数据,并注意到在 2009 年及之前,我被阻止了,因为他们的 robots.txt 文件中包含 Disallow: */season/200 。 为什么E...

回答 1 投票 0

中间件中的Scrapy句柄closespider超时

我有多个抓取工具,我想对其设置时间限制。 CLOSESPIDER_TIMEOUT 完成工作并返回 完成原因:关闭蜘蛛超时。 我想拦截这个并使用日志记录...

回答 1 投票 0

为什么scrapy shell没有返回输出?

我遵循本教程是因为我想学习网络抓取。 https://www.datacamp.com/tutorial/making-web-crawlers-scrapy-python 当我开始使用 CSS 选择器进行提取时,我...

回答 1 投票 0

Scrapy Playwright页面方法:防止找不到选择器时出现超时错误

我的问题与Scrapy Playwright有关,以及如果无法找到特定选择器,如何防止蜘蛛页面崩溃。 下面是一个使用 Playwright 进行交互的 Scrapy Spider...

回答 1 投票 0

Scrapy Referer 不返回可读的 url

在抓取网站时,我想获取指向 404 的引用。 def parse_item(自我, 响应): 如果响应.status == 404: 对此做一些事情 >referer=response.re...

回答 3 投票 0

Scrapy 引荐来源网址未返回可读网址

在抓取网站时,我想获取指向 404 的引用。 def parse_item(自我, 响应): 如果响应.status == 404: 对此做一些事情 >referer=response.re...

回答 3 投票 0

Scrapy/跨多个 HTML 标签提取数据

Scrapy 新手,但追赶得很快。尽管有谷歌搜索和副驾驶,但我还是无法弄清楚一件事,所以我感谢您的耐心:)我有一些如下所示的 HTML: ... Scrapy 新手,但追赶得很快。尽管有谷歌搜索和副驾驶,但我还是无法弄清楚一件事,所以我感谢您的耐心:)我有一些如下所示的 HTML: <p> "The " <strong class="meep">cat</strong> " sat " <a href="whatever1" title="whatever2">on</a> " the mat." </p> 我去了div的父级p,并执行了: response.xpath('//div[@class="whatever3"]/p[2]/text()').extract() ...但它输出 ['The ', 'sat', ' the mat.'] 如何添加代码以获得“猫坐在垫子上。”?我也尝试过 following-sibling 语法,但就是无法让它工作。我也尝试过使用 join 但也无法让它发挥作用,在这里...... 欣赏想法。 要模仿所有文本节点值,只需使用 //text() response.xpath('//div[@class="whatever3"]/p[2]//text()').extract() join 方法会将字符串提取为由空格分隔的单个字符串。 ''.join(response.xpath('//div[@class="whatever3"]/p[2]//text()').extract())

回答 1 投票 0

如何更改 scrapy-playwright 中的 context_count

我想知道如何更改 scrapy-playwright 中的 context_count 。 我认为我们还需要更改 max_concurrent 。它是否正确? '剧作家/context_count':1, '剧作家/context_count/

回答 1 投票 0

scrapy,selenium 不会返回页面中的所有元素

我想减少代码完成抓取页面所需的时间,我正在使用硒。 我在这个抓取项目中使用了 Scrapy,但 JavaScript 隐藏了 Scrapy 中的电子邮件元素。 斯克...

回答 2 投票 0

减少代码完成抓取所需的时间

我想减少代码完成抓取页面所需的时间,我正在使用硒。 我在这个抓取项目中使用了 Scrapy,但 JavaScript 隐藏了 Scrapy 中的电子邮件元素。 斯克...

回答 1 投票 0

python中的Scrapycrawlspider发现错误“'str'对象没有属性'iter'”

我遇到了网络抓取错误,但我不明白。我把这个代码贴了3天多了。有人可以帮我指导这个问题吗? 这是我的错误消息 2024-03-15 14:01:18 [...

回答 1 投票 0

Scrapy:在哪里初始化数据库连接,因此它可以在蜘蛛、Pileines 和类中使用和访问

我有一个相当标准的Scrapy项目,它的目录结构如下所示 我的项目 scrapy.cfg 我的项目 __init__.py 项目.py itemsloader.py 中间件.py 我的统计收集...

回答 1 投票 0

抓取分页失败,页面链接处于 for 循环中

我的 scrapy 蜘蛛仅获取第一页的内容。我从主页获取所有分页链接,然后在 for 循环中迭代它们。示例页面网址为“https://www.moneycontrol.com...

回答 1 投票 0

Scrapy - 不同域的不同 download_delay

我正在使用 scrapy 从网站下载一些文章以及文章中的图像。 有关该场景的一些信息: 文章来自主域(jandan.net)

回答 2 投票 0

如何在Scrapy中访问特定统计数据(“finish_reason”,“elapsed_time_seconds”)?

我正在使用 Scrapy,我可以用它从不同的 URL 抓取数据。我试图获得的一件事是统计数据,特别是 finish_reason 和

回答 1 投票 0

Scrapy 错误 - str 对象没有属性 css

文章=response.css(‘.article-main).getall() 莱恩(文章) 到这里我们就得到结果了 艺术=文章[0] Art.css(‘.art2-amp::text’).get() 面对错误 str 对象没有属性 css。注意...

回答 1 投票 0

安装 scrapy 时出错:退出 1 错误

这是我得到的错误。之前工作正常,然后我重新安装了 python(我已将其添加到系统变量中)并安装了 vscode(如果相关的话)。但即使使用 Windows 终端,我也得到了

回答 2 投票 0

Scrapy 请求出现 403 错误,尽管 python 'get' 请求工作正常

尝试使用Scrapy获取少数网站的内容,但它们都返回403(禁止)响应代码。尽管当我使用“get”函数发出请求时,相同的网站工作正常,如下所示: 小鬼...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.