scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Scrapy - 仅抓取 url 列表中的第一个 url

我正在抓取罗马、米兰和贝加莫餐厅的评论。对于其中每一个城市,都有一个包含 30 家或更多餐厅的专用 URL。刮刀开始在罗马爬行

回答 1 投票 0

运行 scrapy Spider 但输出为空白。蟒蛇

我试图让这个蜘蛛浏览 csv 中包含的 1600 个 url 列表,并从页面中提取电子邮件和电话号码。如果有人已经有了这样的程序,我很乐意使用它,但是......

回答 1 投票 0

如何抓取里面有<!-- -->的节点文本?

我正在编写一个网络爬虫,用于从招聘网站上抓取信息。我完成了第一个爬虫,但还有一些问题需要解决。 对于某些公司的头衔,我得到的结果是 ПАО\xa0。 ...

回答 1 投票 0

Scrapy Spider 错误:无法腌制本地对象 'Crawler.__init__.<locals>.<lambda>'

我想在 Celery(版本 5.3.4)任务中运行 Scrapy 蜘蛛(版本 2.10)。此外,我希望我的蜘蛛能够使用多重处理来工作。 我已经定义了一个 CrawlerProcess 类...

回答 1 投票 0

带有 df 的字典。如何填充字典值中的空数据框?

我用数据框创建了字典。我想填充每个数据框 - 向每个数据框添加新行。它是在 for 循环中。 当我有一个数据框和值列表时,它可以工作: 行= [20,'戈尔尼克·扎布...

回答 1 投票 0

动态调用Spider的Scrapy Spider不会将任何输出保存到所需的文件夹

我想通过在 Visual Studio 代码中按 F5 来运行“___SPIDER_RUNNER.py”。一切似乎都正常爬行,日志记录显示正在检索项目,但输出 JSON 文件未保存到折叠...

回答 1 投票 0

Scrapy XPath - @href 返回意外值

我目前正在从 Tripadvisor 上抓取餐厅评论,并尝试从此页面检索餐厅链接。 我想要底部 30 个餐厅页面的链接,但我无法...

回答 1 投票 0

规则元组在Scrapy Crawl Spiders中如何工作?

我的代码可以工作,但我想知道有关爬行蜘蛛中的规则元组的一些事情。 scrapy如何在上一条规则运行完后迭代规则? 例如。之后我...

回答 1 投票 0

如何在while循环中运行Scrapy

所以我正在做一个项目,使用多个蜘蛛抓取不同的网站。我想让蜘蛛在用户要求继续时说“是”时再次运行。 关键字=输入(...

回答 4 投票 0

如何从 Fangraphs 中的表格中提取数据

我正在尝试使用 Scrapy 从此表中提取玩家姓名 我试过这个 rows = response.css('表 tr.is-selected_invalid') 这只是为了获取行,但这根本不起作用。我也...

回答 1 投票 0

scrapy,我正在尝试删除提取到 csv 文件的空行

我正在从一页中提取数据。当然,我必须更深入,但我仍然停留在第一页。这是我的代码: 从 scrapy.contrib.spiders 导入 CrawlSpider 来自 scrapy.selector imp...

回答 1 投票 0

删除已抓取的空值数据

假设我正在抓取数据,并且某些字段被抓取“”,意味着没有价值。 我不想在其中包含“”的行。我该怎么做? 例子: 字段1 字段2 字段3 我的计划...

回答 1 投票 0

在脚本元素的文本中查找字符串

我正在尝试抓取一个页面,我想在返回页面的 HTML 之前等待脚本元素中检测到字符串。 这是我的 MRE 抓取工具: 来自 scrapy 导入请求,蜘蛛 来自

回答 1 投票 0

在具有多个文本节点的字符串元素的文本中查找字符串

我正在尝试抓取一个页面,我想在返回页面的 HTML 之前等待脚本元素中检测到字符串。 这是我的 MRE 抓取工具: 来自 scrapy 导入请求,蜘蛛 来自

回答 1 投票 0

使用Scrapy从网站查找并下载多个pdf文件

我需要使用Scrapy从网站下载多个pdf文件。我是Python新手,Scrapy对我来说也很陌生。我一直在尝试控制台和一些基本的蜘蛛。 我已经...

回答 1 投票 0

当所有数据似乎都在一个没有结构的项目中时使用scrapy

我正在抓取这个网站,以便理想地将每篇论文的信息作为单独的条目获取。使用 scrapy shell 和“查看页面源代码”进行探索后,所有信息似乎都在其中......

回答 1 投票 0

在scrapyd中,如何通过schedule api传递FEED_URI值

我希望 scrapyd 在云上运行我的蜘蛛,为此我想将 FEED_URI 的值作为 scrapyd 命令中的参数传递。 目前我在自定义设置中使用以下配置来存储

回答 1 投票 0

获取:使用 Scrapy 抓取笔记本电脑数据时爬行(302)

我想从 https://www.newegg.com/tools/laptop-finder 抓取屏幕类型和标题等数据 但我被困住了,因为我的脚本被抓取但未被抓取 该网站的 HTML 代码是 ...

回答 1 投票 0

如何限制Scrapy CrawlSpider抓取的页面数量?

尽管网站有 50 个页面,但我想使用以下代码将抓取的页面数量限制为 5。我正在使用 Scrapy 的 CrawlSpider。我怎样才能做到这一点? 从 scrapy.linkextractors 导入 LinkExtracto...

回答 1 投票 0

使用 scrapy 转到 showthread.php 的下一页

我是scrapy新手。大约 4 天,我在获取 showthread.php(基于 vbulletin 的论坛)时被困在转到下一页。 我的目标:http://forum.femaledaily.com/showthread.php?359-Hair-Smoothing

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.