scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Python Scrapy 废弃动态加载的网站

我目前正在开发一个网络抓取项目,使用Scrapy从https://www.discoveruni.gov.uk/course-finder/results/中提取课程信息。由于网站,我遇到了挑战...

回答 1 投票 0

Scrapy 爬取了 0 页 0 项

我使用 scrapy 创建了一个爬虫,从 Indeed 上抓取数据,希望将职位、公司、地点、描述、资格返回到 csv 文件中。但我遇到了问题:它没有返回...

回答 1 投票 0

Python Scrapy 单页启动速度极慢

我是 Scrapy with Splash 的新手,希望得到一些建议。我正在尝试抓取网站 https://www.canada.ca/en/revenue-agency/services/forms-publications/forms.html,其中包含一个 lis...

回答 1 投票 0

为什么pyhton找不到scrapy生成的包?

平台:Windows 10。 IDE:v.s.代码 Python版本:3.12.1 Scrapy版本:2.11.0 我使用终端生成了一个 scrapy 项目: scrapy startprojet NewScrapyProject 之后我去了...

回答 1 投票 0

尝试使用Scrapy发出POST请求

总的来说,我是网络抓取的初学者。我的目标是废弃网站“https://buscatextual.cnpq.br/buscatextual/busca.do”,问题是,这是一个科学网站,所以我需要选中“

回答 1 投票 0

如何通过Scrapy获取城市名称

我正在尝试使用以下网站的scrapy从每个电缆入口中抓取城市名称:https://www.submarinecablemap.com/ 我的目标是列出所有城市,这些城市是...

回答 1 投票 0

Scrapy循环查找每个元素并导出到Json

下面的代码找到了我正在寻找的所有元素,但我很难将这是一个循环,其中数据被放入数据帧并导出到 Json 文件。所有命令都可以从 c...

回答 1 投票 0

将scrapy项目导出到不同的文件

我正在从 moocs 上抓取评论,喜欢这个 从那里我可以获取所有课程详细信息,其中 5 个项目和每个评论本身的另外 6 个项目。 这是我的课程详细信息的代码:...

回答 2 投票 0

scrapy如何将项目导出为每个项目单独的csv文件

我正在抓取一个足球网站,蜘蛛(单个蜘蛛)从网站页面获取多种项目:球队、比赛、俱乐部等。 我正在尝试使用 CSVItemExporter 将这些项目存储在

回答 6 投票 0

网页抓取时 JSON 中不需要的换行符

我想使用Scrapy从这个网站提取信息。但我需要的信息在 JSON 文件中;并且此 JSON 文件仅在描述部分包含不需要的文字换行符。 这是一个

回答 1 投票 0

网页抓取时 JSON 中不需要的转义字符

我想使用scrapy从这个网站提取信息。但我需要的信息在 JSON 文件中;并且此 JSON 文件仅在描述部分包含不需要的转义字符。 这是一个示例...

回答 1 投票 0

Scrapy 从表中收集数据

我没有从下面的脚本中收到错误,但该脚本不返回任何数据。我试图获取 html 表 4 中开始的每周的所有比赛。当我输入 xpath 命令时我...

回答 1 投票 0

为什么在 Scrapy 中使用中间件时会出现无限循环?

我正在实施一个在网站上抓取工作机会的计划。但是,我有一个问题:在同一个站点上,链接有时是用相对 href 编程的,有时是绝对的(例如:有时我有......

回答 1 投票 0

Kubernetes Docker 容器 Pod 中无法访问 ScrapyRT 端口

我在访问 Kubernetes pod 内特定端口上运行的 ScrapyRT 服务时遇到困难。我的设置包括一个 Kubernetes 集群,其中有一个运行 Scrapy 应用程序的 Pod,其中...

回答 1 投票 0

无法让一个 pod 与另一个 pod 通信(Kubernetes 中的 ScrapyRT 通信不起作用)

我正在管理 Kubernetes 集群,并希望 Pod1 对 Pod2 和 Pod3 进行 API 调用(但 Pod1 - Pod3 失败!): Pod1:用于测试连接的 Jupyter Notebook 环境。 Pod2:运行的 Express.js 应用程序...

回答 1 投票 0

Scrapy 条件 HTML 值

下面的代码找到了我正在寻找的大部分元素。然而,温度和风速的标签会根据天气严重程度而变化。如何让下面的代码一致得到...

回答 1 投票 0

无法让一个 Pod 与另一个 Pod 通信(Pod 间通信不起作用)

我正在管理 Kubernetes 集群,并希望 Pod1 对 Pod2 和 Pod3 进行 API 调用(但 Pod1 - Pod3 失败!): Pod1:用于测试连接的 Jupyter Notebook 环境。 Pod2:运行的 Express.js 应用程序...

回答 1 投票 0

Scrapy:运行 CrawlProcess() 时出现twisted.internet.error.ReactorNotRestartable

我正在尝试从脚本运行我的scrapy。 我正在使用 CrawlerProcess,并且只有一个蜘蛛可以运行。 我已经被这个错误困扰了一段时间,并且我尝试了很多方法来改变

回答 4 投票 0

我不断收到错误 TypeError: unsupported operand type(s) for +=: 'NoneType' and 'str'

我制作了一个scrapy蜘蛛,可以为水管工抓取黄页。该地址分为两部分。因此,在获得这些部分后,我将它们放在管道文件中。波纹管是...

回答 1 投票 0

Scrapy 自动化

我正在作为一名初级数据科学家从事一个项目 在我抓取了几个网站后,他们要求我自动化抓取过程 我使用 scrapy 作为这个问题的框架,并使用 mongoDB 来解决...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.