scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Scrapy/Celery 日志记录设置不起作用

我正在将 Scrapy 蜘蛛作为 Celery 任务运行。 问题是 Scrapy 不会登录到文件 scrapy.log。它会记录到 Celery 日志中。此外,我可以在 Celery 日志中看到 DEBUG 级别...

回答 5 投票 0

如何使用 scrapy 从 python 的输出中删除 u' ?

当我运行命令时,我得到如下所示的输出。如何删除你每次都收到的信息? [u'Massimo Eraldo Abate'、u'Valentina Abate'、u'Carlo Abbate'、u'Francesca Abbate'、u'Ines Abbate'、u'

回答 3 投票 0

使用 Xpath 从属性值获取元素名称

我正在尝试获取具有特定属性值的每个节点的元素/标签名称。 我有一个 xml: 这个 是 A&l...

回答 1 投票 0

我们是否可以选择同时“独立”运行多个蜘蛛?

这个问题已经被问过多次,但我没有看到任何可靠的答案。几年前,也有人问过这个问题:https://github.com/scrapy/scrapy/issues/3216。我目前运行着 300 多个蜘蛛

回答 1 投票 0

Scrapy 设置可以使用 custom_settings 工作,但不能在 settings.py 中工作

我一直在尝试编辑我的Spider中的一些设置,但它们似乎只有在我覆盖自定义Spider中的custom_settings字典时才起作用。 自定义设置 = { '下载延迟':1, '

回答 2 投票 0

Scrapy 将一个 CSV 中的所有数据导出到 AWS S3,而不是多个 CSV

我正在尝试使用 MultiCSVItemPipeline 将两个 csv 中的 Scrapy 抓取数据导出到 S3。它在我的计算机上运行良好,数据以两个单独的 csv 格式导出,但导出到 S 时...

回答 1 投票 0

scrapy 解析亚马逊

我正在尝试使用 scrapy 解析亚马逊印度网站,但我认为我的 IP 地址被屏蔽了...我想知道我的 IP 地址将被屏蔽多长时间?作为一个菜鸟,我现在添加了延迟并且

回答 1 投票 0

Scrapy 响应返回一个空数组

我正在使用 scrapy 爬行此页面,并尝试提取主表的所有行。 以下 XPath 表达式应该给出我想要的结果: //div[@id='TableWithRules']//tbody/tr

回答 1 投票 0

Scrapy:发送带有查询参数字符串的请求时无法到达第二个回调函数

我正在从元数据中抓取工程博客。现在我只是想打印每个博客的标题和网址。谢谢你的帮助 这就是我所做的。它没有达到 parse_loadmore 函数...

回答 1 投票 0

Scrapy-playwright 具有多个 start_urls

这里讨论了类似的问题,但我无法使我的代码工作。目的是 scrapy-playwright 为 start_urls 中的每个 URL 生成请求响应,并以相同的方式解析每个响应...

回答 1 投票 0

从两个不同的url获取数据到同一个ScrapyItem()

我是 scrapy 的新手,我一直在尝试抓取这个网站:https://quotes.toscrape.com/ 我想要的数据是 引用; 作者; 出生日期和 出生地。 要获取前 2 个数据(引用...

回答 1 投票 0

Scrapy 通过迭代返回相同的值

我正在使用 Scrapy 从网站提取信息。 我的目标是使用 Scrapy 获取高尔夫球杆的名称、价格等,并跟踪整个冬季的成本,并在价格上涨时购买我想要的东西......

回答 1 投票 0

Splash 无法呈现整个页面

我无法弄清楚如何通过启动来渲染整页。我尝试设置代理和不同的用户代理,但没有成功。包含内容的主 div 未呈现。如果有人 c...

回答 1 投票 0

使用 scrapy (python) 抓取内容时出现空响应

我正在尝试使用 scrapy 及其 Selector.css 废弃一个网站('ellenmacarthurfoundation'),特别是此页面: 这是网站 这是我正在尝试抓取的网页的 html 我很...

回答 1 投票 0

scrapy.core.scraper 错误:下载时出错 -- OSError: Errno 24 打开文件太多

我继承了一个 scrapy 应用程序,它可以爬行域上的 1000 个页面,并将最终结果写入 json 文件。作者在 Mac 上运行此程序并遇到了

回答 1 投票 0

scrapy 从嵌套类中的嵌套 div 中提取文本

对于 scrapy 和网络抓取来说,我真的很陌生,我一直在学习教程,并想扩展一下,看看我能做什么。 我有一些来自网站的内容,我想抓取其中......

回答 1 投票 0

如何从facebook页面的xhr回复中获取有用的数据?

我正在尝试通过网络抓取我的 Facebook 页面以获取我所有朋友的生日。由于facebook使用ajax调用来加载“生日活动”页面中的朋友姓名,所以我查看了网络ac...

回答 3 投票 0

帮助程序函数在另一个文件中,尝试导入时出现 ModuleNotFoundError

我有一个使用 scrapy 的简单 Python 项目。我的文件结构如下所示: 顶级文件夹 |-刮刀 |--蜘蛛 |---help_functions.py |--- |--items.py |--pipelines.py |--

回答 1 投票 0

Python、Scrapy、多个项目和链接

我正在学习网络抓取并做一些个人项目来开始。我已经能够学习一些基础知识,但在将抓取的数据保存到 csv 文件时遇到问题。 导入...

回答 1 投票 0

如何将cloudscraper与scrapy一起使用

我正在尝试解析来自站点的数据,我使用scrapy,但该站点受cloudflare保护。我找到了解决办法,使用cloudscraper,这个cloudscraper确实可以绕过防护。但我没有

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.