scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

当所有数据似乎都在一个没有结构的项目中时使用scrapy

我正在抓取这个网站，以便理想地将每篇论文的信息作为单独的条目获取。使用 scrapy shell 和“查看页面源代码”进行探索后，所有信息似乎都在其中......

scrapy

回答 1 投票 0

在scrapyd中，如何通过schedule api传递FEED_URI值

我希望 scrapyd 在云上运行我的蜘蛛，为此我想将 FEED_URI 的值作为 scrapyd 命令中的参数传递。目前我在自定义设置中使用以下配置来存储

python-3.x scrapy scrapyd

回答 1 投票 0

获取：使用 Scrapy 抓取笔记本电脑数据时爬行（302）

我想从 https://www.newegg.com/tools/laptop-finder 抓取屏幕类型和标题等数据但我被困住了，因为我的脚本被抓取但未被抓取该网站的 HTML 代码是 ...

python web-scraping scrapy screen-scraping

回答 1 投票 0

如何限制Scrapy CrawlSpider抓取的页面数量？

尽管网站有 50 个页面，但我想使用以下代码将抓取的页面数量限制为 5。我正在使用 Scrapy 的 CrawlSpider。我怎样才能做到这一点？从 scrapy.linkextractors 导入 LinkExtracto...

python web-scraping scrapy web-crawler

回答 1 投票 0

使用 scrapy 转到 showthread.php 的下一页

我是scrapy新手。大约 4 天，我在获取 showthread.php（基于 vbulletin 的论坛）时被困在转到下一页。我的目标：http://forum.femaledaily.com/showthread.php?359-Hair-Smoothing

python python-2.7 web-crawler scrapy

回答 2 投票 0

Python Scrapy 999 错误含义。 Linkedin 公司数据抓取

我正在尝试在 Linkedin 上抓取公司数据。为了进入公司页面，需要登录。我正在使用以下 Scrapy Spider：导入scrapy 从 scrapy 导入蜘蛛来自 scrapy.h...

scrapy web-scripting

回答 1 投票 0

如何在网络抓取Python选择器中指定搜索

我的目标是从这个网站获取数据：https://pokemondb.net/pokedex/all 我正在努力获得这些能力，它们一定是这样的：网址姓名效果说明但其中一些信息...

python css web-scraping scrapy css-selectors

回答 1 投票 0

如何为scrapy项目设置celerybeat？

我有一个 scrapy 项目，我想每天运行我的蜘蛛，所以我使用 celery 来做到这一点。这是我的tasks.py 文件：从芹菜导入芹菜，shared_task 从 scrapy.crawler 导入 CrawlerProcess ...

scrapy celery django-celery celerybeat django-celery-beat

回答 1 投票 0

登录Scrapy

我在登录 scrapy 时遇到问题，而且我能找到的大部分内容都已过时。我已在 settings.py 文件中设置 LOG_FILE="log.txt" ，并且从文档中可以看出，这应该有效：刮痧

python logging documentation scrapy

回答 3 投票 0

如果解析方法出现错误，如何重新抓取页面？

我的解析方法中的第一个操作是从 HTML 中包含的 JSON 字符串中提取字典。我注意到有时会出现错误，因为网页无法正确显示，因此

python scrapy

回答 1 投票 0

有没有办法使用 Crawl.runner / 进程运行两个蜘蛛并将结果保存在两个单独的文件中？

我有两个不同脚本的scrapy蜘蛛蜘蛛蜘蛛1.py 蜘蛛2.py 蜘蛛中的代码示例如下：从 scrapy.crawler 导入 CrawlerRunner 来自twisted.internet

python process scrapy web-crawler twisted

回答 1 投票 0

在 Heroku 上使用无头的 Selenium“ERR_CONNECTION_RESET”

我有一个 Django + Selenium 应用程序，我正在尝试部署到 Heroku。我有一个管理命令，可以激活 Selenium Webdriver 来使用。每当我在本地运行它时都完全没问题（没有他......

python django selenium-webdriver heroku scrapy

回答 1 投票 0

如何使用 scrapy 计算父标签中的特定标签

在我尝试抓取的网站中，每个页面有 6 个表格，每个表格中的图像标签将重复 1 到 5 次，我想计算图像标签在 .. 中出现的次数。 .

python scrapy

回答 1 投票 0

scrapy 使用变量动态创建收益字段

我想用 scrapy 从亚马逊产品页面获取所有要点，例如亚马逊链接，但数量各不相同。我最终使用这样的东西 def 解析（自身，响应）： t = 相应...

python scrapy

回答 1 投票 0

为什么 Scrapy CrawlSpider 在这个网站上返回“无”：“https://books.toscrape.com/”？

下面是我尝试从该网站提取 3 个值（UPC、价格和可用性）的代码：https://books.toscrape.com/。我正在使用 Scrapy CrawlSpider 但它返回“不...

python web-scraping scrapy

回答 1 投票 0

我怎样才能在python中的scrapy选择器中只获取文本

我希望你一切都好。标题：德阿尔德苹果公司尺寸： 82 x 114 厘米 ... 我希望你一切都好。 <ul> <li> <s>Title:</s> De Aardappeleters </li> <li> <s>Dimensions:</s> 82 x 114 cm </li> <li> <s>Media:</s> canvas </li> <li> <s>Style:</s> Realism </li> <li> <s>Date:</s> 1885 </li> ______ <li> | <s>Genre:</s> | It is located on a page of the website here Modern | </li> ______| </ul> 我有一个 HTML 块☝，我想从 li 接收文本。但不幸的是，这个li没有我可以选择的类或ID。这个块是一个站点的。 <li> <s>Genre:</s> Modern </li> 我想选择流派列表并获取文本。👇 Modern 这里的主要问题是这个块在另一个页面上是不同的。👇 <ul> <li> <s>Title:</s> De Aardappeleters </li> <li> <s>Dimensions:</s> 82 x 114 cm </li> <li> <s>Media:</s> canvas </li> ______ <li> | <s>Genre:</s> |And it is located here on another page. Modern | </li> ______| <li> <s>Style:</s> Realism </li> <li> <s>Date:</s> 1885 </li> </ul> OriginalTagFind = layout.css('article ul li s::text').getall() TitleOriginal = [tag.strip() for tag in OriginalTagFind if tag.startswith('Genre:')] 在我看来，如果我来到我选择的地方，用Next Sibiling打印母亲名单的文本。有可能吗检查以下示例并尝试： genre = response.xpath('//li[s/text()="Genre:"]/text()').get() 如果包含多余空格，请使用 strip() 删除空格， genre = response.xpath('//li[s/text()="Genre:"]/text()').get().strip()

python web-scraping scrapy

回答 1 投票 0

我尝试在 xpath 中获取以下::*，但每当数据上有多个标记名时，数据就会重复

我尝试在一些标记名之后获取以下所有数据，但问题是，如果它有多个标记名，它将显示所有内容并重复显示它，例如： <... 我尝试在某个标记名之后获取以下所有数据，但问题是，它会显示所有内容，并重复显示（如果它有多个标记名）： <ul> <li> new or worsening <a href=""/cg/chronic-cough.html"" data-type=""auto"">cough</a>, <a href=""/cg/asthma.html"" data-type=""auto"">wheezing</a>, trouble breathing; </li> <li> blue lips, blue colored fingers or toes; </li> <li> easy bruising, unusual bleeding, purple or red spots under your skin; </li> <li> <a href=""/cg/bradycardia.html"" data-type=""auto"">slow heart rate</a>, weak pulse, <a href=""/cg/syncope.html"" data-type=""auto"">fainting</a>, slow breathing (breathing may stop); </li> <li> kidney problems--little or no urination, swelling in your feet or ankles, feeling tired or short of breath; or </li> <li> low calcium level--muscle <a href=""/cg/muscle-spasm-aftercare-instructions.html"" data-type=""auto"">spasms</a> or contractions, numbness or tingling; </li> <li> low magnesium--dizziness, irregular heartbeats, feeling jittery, muscle cramps, muscle spasms, cough or choking feeling; or </li> <li> <a href=""/cg/hypokalemia.html"" data-type=""auto"">low potassium</a> level--leg cramps, <a href=""/cg/constipation.html"" data-type=""auto"">constipation</a>, fluttering in your chest, increased thirst or urination, muscle weakness or limp feeling. </li> </ul> 例如在上面的代码中，它将显示 ul 内的所有内容、li 内的所有内容以及 a 内的所有内容，因此我将得到 3 个相同的文本。其实我只是想把所有的事情都集中在里面，而不是重复其他的。有办法吗？谢谢你我已修复此问题，但未输入字符串中已有的内容

selenium-webdriver xpath scrapy

回答 1 投票 0

Scrapy Spider 仅返回每个页面的第一个产品

我使用scrapy从亚马逊废弃产品，但它只返回每个页面的第一个产品并转到下一页我的代码有什么问题导入scrapy 从 ..items 导入 AmazonItem AmazonSpS 类...

python web-scraping scrapy web-crawler

回答 1 投票 0

当下一页链接没有产生任何结果时，scrapy无限滚动

我正在尝试使用下面的代码获取 https://www.salewa.com/de-de/herren 的产品。问题是，当 next_page 转到 /de-de/herren?p=4 时，它不会产生任何项目。在浏览器上...

python scrapy infinite-scroll

回答 1 投票 0

导入错误：没有名为 importlib 的模块

我正在尝试在python 2.7上安装scrapy，问题是当编译它时我收到此错误 $ sudo python2 -m pip 安装 scrapy 弃用：Python 2.7 已经走到了生命的尽头...