scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

scrapy 使用变量动态创建收益字段

我想用 scrapy 从亚马逊产品页面获取所有要点,例如亚马逊链接,但数量各不相同。我最终使用这样的东西 def 解析(自身,响应): t = 相应...

回答 1 投票 0

为什么 Scrapy CrawlSpider 在这个网站上返回“无”:“https://books.toscrape.com/”?

下面是我尝试从该网站提取 3 个值(UPC、价格和可用性)的代码:https://books.toscrape.com/。我正在使用 Scrapy CrawlSpider 但它返回“不...

回答 1 投票 0

我怎样才能在python中的scrapy选择器中只获取文本

我希望你一切都好。 标题: 德阿尔德苹果公司 尺寸: 82 x 114 厘米 ... 我希望你一切都好。 <ul> <li> <s>Title:</s> De Aardappeleters </li> <li> <s>Dimensions:</s> 82 x 114 cm </li> <li> <s>Media:</s> canvas </li> <li> <s>Style:</s> Realism </li> <li> <s>Date:</s> 1885 </li> ______ <li> | <s>Genre:</s> | It is located on a page of the website here Modern | </li> ______| </ul> 我有一个 HTML 块☝,我想从 li 接收文本。但不幸的是,这个li没有我可以选择的类或ID。这个块是一个站点的。 <li> <s>Genre:</s> Modern </li> 我想选择流派列表并获取文本。👇 Modern 这里的主要问题是这个块在另一个页面上是不同的。👇 <ul> <li> <s>Title:</s> De Aardappeleters </li> <li> <s>Dimensions:</s> 82 x 114 cm </li> <li> <s>Media:</s> canvas </li> ______ <li> | <s>Genre:</s> |And it is located here on another page. Modern | </li> ______| <li> <s>Style:</s> Realism </li> <li> <s>Date:</s> 1885 </li> </ul> OriginalTagFind = layout.css('article ul li s::text').getall() TitleOriginal = [tag.strip() for tag in OriginalTagFind if tag.startswith('Genre:')] 在我看来,如果我来到我选择的地方,用Next Sibiling打印母亲名单的文本。有可能吗 检查以下示例并尝试: genre = response.xpath('//li[s/text()="Genre:"]/text()').get() 如果包含多余空格,请使用 strip() 删除空格, genre = response.xpath('//li[s/text()="Genre:"]/text()').get().strip()

回答 1 投票 0

我尝试在 xpath 中获取以下::*,但每当数据上有多个标记名时,数据就会重复

我尝试在一些标记名之后获取以下所有数据,但问题是,如果它有多个标记名,它将显示所有内容并重复显示它,例如: <... 我尝试在某个标记名之后获取以下所有数据,但问题是,它会显示所有内容,并重复显示(如果它有多个标记名): <ul> <li> <p>new or worsening <a href=""/cg/chronic-cough.html"" data-type=""auto"">cough</a>, <a href=""/cg/asthma.html"" data-type=""auto"">wheezing</a>, trouble breathing;</p> </li> <li> <p>blue lips, blue colored fingers or toes;</p> </li> <li> <p>easy bruising, unusual bleeding, purple or red spots under your skin;</p> </li> <li> <p><a href=""/cg/bradycardia.html"" data-type=""auto"">slow heart rate</a>, weak pulse, <a href=""/cg/syncope.html"" data-type=""auto"">fainting</a>, slow breathing (breathing may stop);</p> </li> <li> <p>kidney problems--little or no urination, swelling in your feet or ankles, feeling tired or short of breath; or</p> </li> <li> <p>low calcium level--muscle <a href=""/cg/muscle-spasm-aftercare-instructions.html"" data-type=""auto"">spasms</a> or contractions, numbness or tingling;</p> </li> <li> <p>low magnesium--dizziness, irregular heartbeats, feeling jittery, muscle cramps, muscle spasms, cough or choking feeling; or</p> </li> <li> <p><a href=""/cg/hypokalemia.html"" data-type=""auto"">low potassium</a> level--leg cramps, <a href=""/cg/constipation.html"" data-type=""auto"">constipation</a>, fluttering in your chest, increased thirst or urination, muscle weakness or limp feeling.</p> </li> </ul> 例如在上面的代码中,它将显示 ul 内的所有内容、li 内的所有内容以及 a 内的所有内容,因此我将得到 3 个相同的文本。其实我只是想把所有的事情都集中在里面,而不是重复其他的。有办法吗?谢谢你 我已修复此问题,但未输入字符串中已有的内容

回答 1 投票 0

Scrapy Spider 仅返回每个页面的第一个产品

我使用scrapy从亚马逊废弃产品,但它只返回每个页面的第一个产品并转到下一页我的代码有什么问题 导入scrapy 从 ..items 导入 AmazonItem AmazonSpS 类...

回答 1 投票 0

当下一页链接没有产生任何结果时,scrapy无限滚动

我正在尝试使用下面的代码获取 https://www.salewa.com/de-de/herren 的产品。问题是,当 next_page 转到 /de-de/herren?p=4 时,它不会产生任何项目。在浏览器上...

回答 1 投票 0

导入错误:没有名为 importlib 的模块

我正在尝试在python 2.7上安装scrapy,问题是当编译它时我收到此错误 $ sudo python2 -m pip 安装 scrapy 弃用:Python 2.7 已经走到了生命的尽头...

回答 1 投票 0

获取 `scrapy` 来生成嵌套数据结构

我正在使用scrapy来抓取这个网站并抓取数据 我希望抓取的数据具有嵌套结构。像这样的东西 { 面额:{ 日期: { 债券编号:[...] }...

回答 1 投票 0

我正在学习Python网络抓取。当我 scrapy 爬行蜘蛛时,它显示 AttributeError

我正在学习使用 scrapy 进行 python 抓取。我做了和教程教的完全一样的事情。 但我得到了一个错误。请帮忙! 我的Python代码: 导入scrapy 类 BookSpider(scrapy.Spider): 不...

回答 1 投票 0

Scrapy - 爬行网站档案以及所有子目录

所以我尝试使用 Scrapy 从网站的存档版本中抓取数据。这是我的代码: 导入scrapy 从 scrapy.crawler 导入 * 从 scrapy.item 导入 * 来自 scrapy.linkextractors 导入...

回答 1 投票 0

如何使用Scrapy Playwight设置页面视口大小?

我没有找到任何满意的答案。我想要的只是在请求模拟该尺寸的屏幕之前将视口设置为 1080*19200(是的,1920 * 10)。 这是否可以使用

回答 1 投票 0

爬取数据时出错:'EPollReactor'对象没有属性'_handleSignals'

我正在尝试从 URL 列表中抓取数据。我已经完成了下面的代码,昨天成功了,没有任何错误。 但是今天,当我回来再次运行代码时,出现了呃...

回答 1 投票 0

Python 废弃网站,但第一次渲染后会出现一些 HTML

我正在尝试使用Python获取网站的代码。问题是,当我尝试使用 cloudscraper 创建 GET 请求时,它返回以 HTML 生成的即时代码。 在这个网站上,有些...

回答 1 投票 0

Scrapy-playwright scraper 不会在响应的元数据中返回“page”或“playwright_page”

我陷入了项目的抓取部分,我继续排除错误,我最新的方法至少没有崩溃和燃烧。然而,无论我得到什么,response.meta

回答 2 投票 0

在 Celery 任务中运行 Scrapy 蜘蛛

这不再起作用了,scrapy 的 API 已经改变了。 现在文档提供了一种“从脚本运行 Scrapy”的方法,但我收到了 ReactorNotRestartable 错误。 我的任务: 从芹菜进口Ta...

回答 5 投票 0

Scrapy:不迭代页面

我有以下代码: 导入scrapy 从 urllib.parse 导入 urlsplit 类 Litspider2Spider(scrapy.Spider): 名称 =“litspider2” allowed_domains = ["https://ilibrary.ru...

回答 1 投票 0

`scrapy` 无法从网站获得响应,但 `requests` 可以

我正在使用scrapy来抓取这个页面 但由于某种原因scrapy无法收到该网站的响应。 当我运行爬虫时,我收到 https 500 错误 这是我的基本蜘蛛 导入scrapy ...

回答 1 投票 0

Scrapy 在主页上工作,但在其他页面上不工作

这里是急躁的新手。我正在尝试从 https://www.aims.gov.au 上抓取数据,更具体地说是 https://weather.aims.gov.au/#/station/4。然而,当我尝试从站抓取数据时......

回答 1 投票 0

Scrapy Spider 未填充 CSV 并提前终止

蜘蛛代码 这个蜘蛛在以下情况下工作得很好: url = '字符串_URL' 然后我将其更改为 csv 文件: 以 open('partsList.csv') 作为文件: url=[line.strip() 用于文件中的行] ~ 包含在上一篇中...

回答 1 投票 0

当项目未显示在 HTML 源中时,如何使用 scrapy 获取项目

我正在使用scrapy获取https://arcteryx.com/de/de/c/mens/new-arrivals?intcmp=home_t1_c_mens_new-arrivals的产品。但是,当我查看页面源代码时,没有出现任何产品(被 javascript 隐藏??)。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.