scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

无法在Scrapy的Settings.py中检索Scrapyd部署的环境变量

我是 Scrapy 新手,目前正在尝试将我的蜘蛛部署到 Scrapyd 服务器。但是,我遇到了一个问题,我似乎无法在 Scrapy 设置文件中使用 os.getenv 。 这是嗬...

回答 1 投票 0

将 Docker 镜像部署到 Scrapy Cloud 时持续出错

我不确定是什么导致了问题,但是在尝试使用我的蜘蛛将 Docker 映像部署到 Scrapy Cloud(使用 shub 部署)时,出现以下错误: $ shub 部署 错误: 检测到电子...

回答 1 投票 0

如何将数据传回主函数进行yield?

我是使用 scrapy 库进行 python 编程的初学者。我想在与具有标题、作者等的主输出相同的输出中生成出生日期。但是,没有成功,我

回答 1 投票 0

无法通过页面中的链接来抓取数据。代码遍历页面但没有返回任何内容

我想让scrapy返回带有表格的特定网页,以便它可以“单击”该表格中的每个条目以转到新网页并从那里抓取数据。该网页...

回答 1 投票 0

如何从网站获取需求 html?

感谢您的关注,并为我糟糕的英语感到抱歉。 我一直在尝试从 https://www.skiddle.com/festivals/dates.html 获取 html,但没有成功。我明白,有些部分会下降...

回答 1 投票 0

运行多个函数时出现 Scrapy 名称错误

我正在尝试运行以下代码,但收到此错误“NameError:名称'scrapedate'未定义” 导入scrapy 从日期时间导入日期时间,时间增量 从 dogscraper.items 导入 Dog...

回答 2 投票 0

使用 CrawlerProcess 将两个不同的蜘蛛导出到相同的文件项

已更新 我按照 Scrapy 文档使用以下示例代码。 导入时间 从输入导入任何 进口熊猫 从 scrapy 导入字段、项目 从 scrapy.crawler 导入

回答 1 投票 0

通过 CrawlerProcess 将两个不同蜘蛛的项目导出到同一文件中

我正在使用 Scrapy 文档中的以下代码,有一个区别:我有两个不同的 Spider,而不是一个(参见 https://docs.scrapy.org/en/latest/topics/practices.html#run -scrapy...

回答 1 投票 0

如何从 HTML 段中提取名称“Terence Crawford”,不包括 Span 元素?

我目前在从 HTML 段检索名称“Terence Crawford”时遇到困难。挑战在于排除存在于同一父元素中的 span 元素。 我目前在从 HTML 片段中检索姓名“Terence Crawford”时遇到困难。挑战在于排除存在于同一父元素中的 span 元素。 <td colspan="3" style="position:relative;" class="defaultTitleAlign"> <h1 style="display:inline-block;margin-right:5px;line-height:30px;"> <span style="font-weight:bold;"><i class="fas fa-crown" style="color:#f6b501 !important;"></i></span> "Terence Crawford" </h1> <div style="width:100%;position:relative;margin-top:5px;"> </div> </td> 我尝试通过指定类属性“defaultTitleAlign”和样式属性“display:inline-block;margin-right:5px;line-height:30px;”来检索名称,但它只返回“/n”的真实姓名。即使定位 h1 元素的全部内容,也不会显示名称。 In [9]: response.xpath("//td[@class='defaultTitleAlign']/h1/text()").get() Out[9]: '\n ' 您可以使用 getall() 方法从给定的选择器中收集所有 text() ,然后您可以在返回的列表中找到您要查找的部分。 例如: In [1]: from scrapy.selector import Selector In [2]: html = """<td colspan="3" style="position:relative;" class="defaultTitleAlign"> ...: <h1 style="display:inline-block;margin-right:5px;line-height:30px;"> ...: <span style="font-weight:bold;"><i class="fas fa-crown" style="color:#f6b501 !important;"></i></span> ...: "Terence Crawford" ...: </h1> ...: <div style="width:100%;position:relative;margin-top:5px;"> ...: </div> ...: </td>""" In [4]: response = Selector(text=html) In [5]: text_list = response.xpath("//td[@class='defaultTitleAlign']/h1//text()").getall() In [6]: text = text_list[1].strip() In [7]: text Out[7]: '"Terence Crawford"'

回答 1 投票 0

抓取我不想但不知道如何排除的链接

假设我有这个结构 假设我有这个结构 <div data-next="link0"> <a href="link1"/> <a href="link2"/> <a href="link3"/> <a href="link4"/> </div> 并且使用我的规则对象,我只想访问 link0,而不访问 link1、link2、link3、link4。 我怎样才能做到这一点? 我试过了 Rule(LinkExtractor(restrict_xpaths=('//div[@data-next]/@data-next')), callback='parse_item'), 但它不起作用,因为我需要对元素的引用,而不是直接的链接。但如果我删除@data-next,link1,link2,link3,link4也会被刮掉。 那么,有什么方法可以在这种情况下使用 Rule 对象来抓取 link0 吗? Rule(LinkExtractor(restrict_xpaths='//div[@data-next]', tags='div', attrs='data-next'), callback='parse_item'), 默认情况下,LinkExtractor 查找 <a> 标签和 @href attr。在这种情况下,您必须指定搜索中应包含哪些标签和属性。更多关于 Scrapy 文档 : 参数: (...) tags(str 或 list) – 提取链接时要考虑的标签或标签列表。默认为 ('a', 'area')。 attrs(列表)– 查找要提取的链接时应考虑的属性或属性列表(仅适用于在标签参数中指定的标签)。默认为 ('href',) 下面xpath //div[@data-next="link0]

回答 2 投票 0

抓取 sofifa.com 时出现异常响应

我正在尝试使用 scrapy 工具抓取 sofifa.com 。使用下面的代码,我试图抓取仅存在于第一页中的 60 名玩家的全名和评分,但我得到了超过 60 名并且......

回答 2 投票 0

Scrapy脚本,如何查找特定关键字并返回或打印url

好的,所以我必须完全编辑它。我已经让脚本部分工作,我可以毫无问题地启动它,这是脚本。粘贴链接在这里:http://pastebin.com/SKa5Wh1h 和...

回答 2 投票 0

如何使用 python scrapy 解析 XML 站点地图?

我正在尝试使用 scrapy 抓取以下站点地图:https://comercialtrevino.com/sitemap/sitemaprssatom_products.xml 一开始我想使用 scrapy shell,然后我会写一个蜘蛛来

回答 1 投票 0

为什么Scrapy一直显示“正在加载scrapy.core.downloader.handlers.http.HTTPDownloadHandler”的错误消息“http”方案

我第一次在我的 Mac arm64 上运行 Scrapy 项目。无论起始 URL 是什么,Scrapy 程序都会不断显示错误消息: “正在加载 scrapy.core.downloader.handlers....

回答 1 投票 0

Python Scrapy 废弃动态加载的网站

我目前正在开发一个网络抓取项目,使用Scrapy从https://www.discoveruni.gov.uk/course-finder/results/中提取课程信息。由于网站,我遇到了挑战...

回答 1 投票 0

Scrapy 爬取了 0 页 0 项

我使用 scrapy 创建了一个爬虫,从 Indeed 上抓取数据,希望将职位、公司、地点、描述、资格返回到 csv 文件中。但我遇到了问题:它没有返回...

回答 1 投票 0

Python Scrapy 单页启动速度极慢

我是 Scrapy with Splash 的新手,希望得到一些建议。我正在尝试抓取网站 https://www.canada.ca/en/revenue-agency/services/forms-publications/forms.html,其中包含一个 lis...

回答 1 投票 0

为什么pyhton找不到scrapy生成的包?

平台:Windows 10。 IDE:v.s.代码 Python版本:3.12.1 Scrapy版本:2.11.0 我使用终端生成了一个 scrapy 项目: scrapy startprojet NewScrapyProject 之后我去了...

回答 1 投票 0

尝试使用Scrapy发出POST请求

总的来说,我是网络抓取的初学者。我的目标是废弃网站“https://buscatextual.cnpq.br/buscatextual/busca.do”,问题是,这是一个科学网站,所以我需要选中“

回答 1 投票 0

如何通过Scrapy获取城市名称

我正在尝试使用以下网站的scrapy从每个电缆入口中抓取城市名称:https://www.submarinecablemap.com/ 我的目标是列出所有城市,这些城市是...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.