scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

M1 Mac 上的 Scrapy:内存错误:无法为 ffi.callback() 分配写入+执行内存

我是 scrapy 新手,最近开始在 M1 MacBook Air 上使用它。我遇到了一个问题。 例如,当我尝试做这样的事情时: scrapy shell bbc.com 它会返回给我:记忆...

回答 7 投票 0

Scrapy 不在 Jupyter Notebook 上保存 json 文件

我在 Jupyter Notebook 中创建了一个脚本,该脚本会废弃一个 url 并应将结果保存在 json 文件中,但它没有这样做,即使在日志中它说它会这样做。我正在使用 Google Drive 保存...

回答 1 投票 0

nslookup:isc_socket_bind:地址正在使用 - 无法解析 docker 容器中的 dns(phusion 图像)

我正在运行一个具有 2CPU、8GB RAM、450Mbps 带宽的 AWS 实例,以及一个保存 python 应用程序的 docker 容器。 当 Python 运行时,容器平均负载在白天几乎约为 6.0...

回答 1 投票 0

如何使用 scrapy-playwright 为每个请求使用新的上下文?

这是我的做法,但我不确定它是否为每个新请求创建和使用新上下文: 类 TestSpider(scrapy.Spider): 名称 = '测试' 开始网址 = [...] 碳纳米管 = 0 def start_re...

回答 1 投票 0

重定向到 PDF 文件时出现 Scrapy 错误:AttributeError:响应内容不是文本

我使用智能代理在 Zyte 上托管了一个 scrapy 蜘蛛。 我的蜘蛛相当简单,因为它从 URL 列表开始爬行。 parse 方法使用一个简单的链接提取器来提取

回答 1 投票 0

使用 Schedule.json 将 PHP 中的 CURL 转换为 SCRAPYD 不返回任何内容

我已经在我的服务器上设置了Scrapyd,一切似乎都工作正常。我可以使用 CURL 来获取我的蜘蛛列表,就像这样curl -u super:secret http://111.111.111.111:6800/listspiders.json?pro...

回答 1 投票 0

Scrapy/Celery 日志记录设置不起作用

我正在将 Scrapy 蜘蛛作为 Celery 任务运行。 问题是 Scrapy 不会登录到文件 scrapy.log。它会记录到 Celery 日志中。此外,我可以在 Celery 日志中看到 DEBUG 级别...

回答 5 投票 0

如何使用 scrapy 从 python 的输出中删除 u' ?

当我运行命令时,我得到如下所示的输出。如何删除你每次都收到的信息? [u'Massimo Eraldo Abate'、u'Valentina Abate'、u'Carlo Abbate'、u'Francesca Abbate'、u'Ines Abbate'、u'

回答 3 投票 0

使用 Xpath 从属性值获取元素名称

我正在尝试获取具有特定属性值的每个节点的元素/标签名称。 我有一个 xml: 这个 是 A&l...

回答 1 投票 0

我们是否可以选择同时“独立”运行多个蜘蛛?

这个问题已经被问过多次,但我没有看到任何可靠的答案。几年前,也有人问过这个问题:https://github.com/scrapy/scrapy/issues/3216。我目前运行着 300 多个蜘蛛

回答 1 投票 0

Scrapy 设置可以使用 custom_settings 工作,但不能在 settings.py 中工作

我一直在尝试编辑我的Spider中的一些设置,但它们似乎只有在我覆盖自定义Spider中的custom_settings字典时才起作用。 自定义设置 = { '下载延迟':1, '

回答 2 投票 0

Scrapy 将一个 CSV 中的所有数据导出到 AWS S3,而不是多个 CSV

我正在尝试使用 MultiCSVItemPipeline 将两个 csv 中的 Scrapy 抓取数据导出到 S3。它在我的计算机上运行良好,数据以两个单独的 csv 格式导出,但导出到 S 时...

回答 1 投票 0

scrapy 解析亚马逊

我正在尝试使用 scrapy 解析亚马逊印度网站,但我认为我的 IP 地址被屏蔽了...我想知道我的 IP 地址将被屏蔽多长时间?作为一个菜鸟,我现在添加了延迟并且

回答 1 投票 0

Scrapy 响应返回一个空数组

我正在使用 scrapy 爬行此页面,并尝试提取主表的所有行。 以下 XPath 表达式应该给出我想要的结果: //div[@id='TableWithRules']//tbody/tr

回答 1 投票 0

Scrapy:发送带有查询参数字符串的请求时无法到达第二个回调函数

我正在从元数据中抓取工程博客。现在我只是想打印每个博客的标题和网址。谢谢你的帮助 这就是我所做的。它没有达到 parse_loadmore 函数...

回答 1 投票 0

Scrapy-playwright 具有多个 start_urls

这里讨论了类似的问题,但我无法使我的代码工作。目的是 scrapy-playwright 为 start_urls 中的每个 URL 生成请求响应,并以相同的方式解析每个响应...

回答 1 投票 0

从两个不同的url获取数据到同一个ScrapyItem()

我是 scrapy 的新手,我一直在尝试抓取这个网站:https://quotes.toscrape.com/ 我想要的数据是 引用; 作者; 出生日期和 出生地。 要获取前 2 个数据(引用...

回答 1 投票 0

Scrapy 通过迭代返回相同的值

我正在使用 Scrapy 从网站提取信息。 我的目标是使用 Scrapy 获取高尔夫球杆的名称、价格等,并跟踪整个冬季的成本,并在价格上涨时购买我想要的东西......

回答 1 投票 0

Splash 无法呈现整个页面

我无法弄清楚如何通过启动来渲染整页。我尝试设置代理和不同的用户代理,但没有成功。包含内容的主 div 未呈现。如果有人 c...

回答 1 投票 0

使用 scrapy (python) 抓取内容时出现空响应

我正在尝试使用 scrapy 及其 Selector.css 废弃一个网站('ellenmacarthurfoundation'),特别是此页面: 这是网站 这是我正在尝试抓取的网页的 html 我很...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.