scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

始终有效的Python Scrapy 函数

下面的脚本在 90% 的时间内都可以收集天气数据。然而,在极少数情况下,由于某种原因它会失败并且 html 代码与其他请求一致。有时...

回答 1 投票 0

Scrapy itemloader 仅返回列表的第一个元素

我按照 https://scrapeops.io/python-scrapy-playbook/scrapy-beginners-guide-cleaning-data/ 上的教程来设置 scrapy itemloader。但是,我不明白如何将 itemloader 修改为

回答 1 投票 0

在文件和终端中显示scrapy日志

我的 scrapy 项目的 settings.py 文件中有以下说明: LOG_ENABLED = 真 LOG_STDOUT = 真 LOG_LEVEL = '信息' 日志统计间隔 = 300 LOG_FILE = '日志文件.txt' 这些

回答 1 投票 0

当 TCP 连接冻结时,Scrapy 在超时限制时强制关闭

在我的 scpraper 中,我有一个特定的网址,它会定期下降。完成统计数据显示 '下载者/异常计数':2, '下载器/exception_type_count/twisted.internet.error.TCPTimedOutError'...

回答 1 投票 0

scrapy 记录器写入文件但不输出到标准输出

Logger 写入文件但不输出到标准输出。 设置.py LOG_FILE =“otomoto.log” LOG_FILE_APPEND = 真 LOG_ENABLED = 真 LOG_SHORT_NAMES = 真 LOG_STDOUT = 真 主要.py 来自...

回答 1 投票 0

Scrapy获取下载的文件名

我是Scrapy新手,请耐心等待。 我有一个蜘蛛访问页面并下载文件。 最终我想将文件名以及其他有用信息写入数据库表...

回答 3 投票 0

分页,用scrapy下一页

下一页按钮按下时不会更改网址,所以我对 scrapy 有问题。 ''' 导入scrapy 类 LegonSpider(scrapy.Spider): 名称=“勒贡” def start_requests(

回答 1 投票 0

所有用户的Python安装

我遇到了一个问题,如果我只为自己(管理员)安装Python,我的应用程序运行得很好...但是当我为所有用户安装Python时,我会收到诸如以下错误: scrapy无法识别...

回答 1 投票 0

导入错误:无法从“io”(未知位置)导入名称“text_encoding”

我一直在尝试开辟一个虚拟环境。我可以从 anaconda powershell 提示符中打开 scrapy,但无法在虚拟环境中使用它。我已经使用comm创建了环境...

回答 2 投票 0

嵌套 div 中的 xpath 问题

python/scrapy 新手。我正在控制台中通过 xpath 测试响应,并且能够使用下面的代码打印 h1 标头作为测试。现在我正在尝试选择 xpath 来提取 (1) 职位名称...

回答 1 投票 0

使用CrawlerRunner时无法设置LOG_LEVEL

我正在使用 CrawlerRunner 运行蜘蛛,我需要设置日志记录级别。 以下是启动抓取工具的代码: 导入操作系统 导入系统 导入日志记录 从 scrapy.crawler 导入 CrawlerRunner

回答 1 投票 0

如何在scrapy中修复Crawled(403)禁止?

def start_requests(自我): 网址 = [ 'https://www.irrawaddy.com/category/business/feed' ] 对于 url 中的 url: 产量 scrapy.Request(url, headers=self.headers,callback=self.pa...

回答 1 投票 0

为什么 espn.com 不允许某些年份被抓取?

我正在使用 scrapy 从 ESPN 抓取数据,并注意到在 2009 年及之前,我被阻止了,因为他们的 robots.txt 文件中包含 Disallow: */season/200 。 为什么E...

回答 1 投票 0

中间件中的Scrapy句柄closespider超时

我有多个抓取工具,我想对其设置时间限制。 CLOSESPIDER_TIMEOUT 完成工作并返回 完成原因:关闭蜘蛛超时。 我想拦截这个并使用日志记录...

回答 1 投票 0

为什么scrapy shell没有返回输出?

我遵循本教程是因为我想学习网络抓取。 https://www.datacamp.com/tutorial/making-web-crawlers-scrapy-python 当我开始使用 CSS 选择器进行提取时,我...

回答 1 投票 0

Scrapy Playwright页面方法:防止找不到选择器时出现超时错误

我的问题与Scrapy Playwright有关,以及如果无法找到特定选择器,如何防止蜘蛛页面崩溃。 下面是一个使用 Playwright 进行交互的 Scrapy Spider...

回答 1 投票 0

Scrapy Referer 不返回可读的 url

在抓取网站时,我想获取指向 404 的引用。 def parse_item(自我, 响应): 如果响应.status == 404: 对此做一些事情 >referer=response.re...

回答 3 投票 0

Scrapy 引荐来源网址未返回可读网址

在抓取网站时,我想获取指向 404 的引用。 def parse_item(自我, 响应): 如果响应.status == 404: 对此做一些事情 >referer=response.re...

回答 3 投票 0

Scrapy/跨多个 HTML 标签提取数据

Scrapy 新手,但追赶得很快。尽管有谷歌搜索和副驾驶,但我还是无法弄清楚一件事,所以我感谢您的耐心:)我有一些如下所示的 HTML: ... Scrapy 新手,但追赶得很快。尽管有谷歌搜索和副驾驶,但我还是无法弄清楚一件事,所以我感谢您的耐心:)我有一些如下所示的 HTML: <p> "The " <strong class="meep">cat</strong> " sat " <a href="whatever1" title="whatever2">on</a> " the mat." </p> 我去了div的父级p,并执行了: response.xpath('//div[@class="whatever3"]/p[2]/text()').extract() ...但它输出 ['The ', 'sat', ' the mat.'] 如何添加代码以获得“猫坐在垫子上。”?我也尝试过 following-sibling 语法,但就是无法让它工作。我也尝试过使用 join 但也无法让它发挥作用,在这里...... 欣赏想法。 要模仿所有文本节点值,只需使用 //text() response.xpath('//div[@class="whatever3"]/p[2]//text()').extract() join 方法会将字符串提取为由空格分隔的单个字符串。 ''.join(response.xpath('//div[@class="whatever3"]/p[2]//text()').extract())

回答 1 投票 0

如何更改 scrapy-playwright 中的 context_count

我想知道如何更改 scrapy-playwright 中的 context_count 。 我认为我们还需要更改 max_concurrent 。它是否正确? '剧作家/context_count':1, '剧作家/context_count/

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.