scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

无法在Scrapy的Settings.py中检索Scrapyd部署的环境变量

我是 Scrapy 新手，目前正在尝试将我的蜘蛛部署到 Scrapyd 服务器。但是，我遇到了一个问题，我似乎无法在 Scrapy 设置文件中使用 os.getenv 。这是嗬...

python python-3.x scrapy scrapyd scrapyd-deploy

回答 1 投票 0

将 Docker 镜像部署到 Scrapy Cloud 时持续出错

我不确定是什么导致了问题，但是在尝试使用我的蜘蛛将 Docker 映像部署到 Scrapy Cloud（使用 shub 部署）时，出现以下错误： $ shub 部署错误：检测到电子...

docker scrapy scrapinghub zyte

回答 1 投票 0

如何将数据传回主函数进行yield？

我是使用 scrapy 库进行 python 编程的初学者。我想在与具有标题、作者等的主输出相同的输出中生成出生日期。但是，没有成功，我

python scrapy

回答 1 投票 0

无法通过页面中的链接来抓取数据。代码遍历页面但没有返回任何内容

我想让scrapy返回带有表格的特定网页，以便它可以“单击”该表格中的每个条目以转到新网页并从那里抓取数据。该网页...

html python-3.x scrapy anaconda spyder

回答 1 投票 0

如何从网站获取需求 html？

感谢您的关注，并为我糟糕的英语感到抱歉。我一直在尝试从 https://www.skiddle.com/festivals/dates.html 获取 html，但没有成功。我明白，有些部分会下降...

python parsing web-scraping scrapy html-parsing

回答 1 投票 0

运行多个函数时出现 Scrapy 名称错误

我正在尝试运行以下代码，但收到此错误“NameError：名称'scrapedate'未定义” 导入scrapy 从日期时间导入日期时间，时间增量从 dogscraper.items 导入 Dog...

python function web-scraping scrapy web-crawler

回答 2 投票 0

使用 CrawlerProcess 将两个不同的蜘蛛导出到相同的文件项

已更新我按照 Scrapy 文档使用以下示例代码。导入时间从输入导入任何进口熊猫从 scrapy 导入字段、项目从 scrapy.crawler 导入

python scrapy

回答 1 投票 0

通过 CrawlerProcess 将两个不同蜘蛛的项目导出到同一文件中

我正在使用 Scrapy 文档中的以下代码，有一个区别：我有两个不同的 Spider，而不是一个（参见 https://docs.scrapy.org/en/latest/topics/practices.html#run -scrapy...

python scrapy

回答 1 投票 0

如何从 HTML 段中提取名称“Terence Crawford”，不包括 Span 元素？

我目前在从 HTML 段检索名称“Terence Crawford”时遇到困难。挑战在于排除存在于同一父元素中的 span 元素。我目前在从 HTML 片段中检索姓名“Terence Crawford”时遇到困难。挑战在于排除存在于同一父元素中的 span 元素。 <td colspan="3" style="position:relative;" class="defaultTitleAlign"> <h1 style="display:inline-block;margin-right:5px;line-height:30px;"> <span style="font-weight:bold;"><i class="fas fa-crown" style="color:#f6b501 !important;"></i></span> "Terence Crawford" </h1> <div style="width:100%;position:relative;margin-top:5px;"> </div> </td> 我尝试通过指定类属性“defaultTitleAlign”和样式属性“display:inline-block;margin-right:5px;line-height:30px;”来检索名称，但它只返回“/n”的真实姓名。即使定位 h1 元素的全部内容，也不会显示名称。 In [9]: response.xpath("//td[@class='defaultTitleAlign']/h1/text()").get() Out[9]: '\n ' 您可以使用 getall() 方法从给定的选择器中收集所有 text() ，然后您可以在返回的列表中找到您要查找的部分。例如： In [1]: from scrapy.selector import Selector In [2]: html = """<td colspan="3" style="position:relative;" class="defaultTitleAlign"> ...: <h1 style="display:inline-block;margin-right:5px;line-height:30px;"> ...: <span style="font-weight:bold;"><i class="fas fa-crown" style="color:#f6b501 !important;"></i></span> ...: "Terence Crawford" ...: </h1> ...: <div style="width:100%;position:relative;margin-top:5px;"> ...: </div> ...: </td>""" In [4]: response = Selector(text=html) In [5]: text_list = response.xpath("//td[@class='defaultTitleAlign']/h1//text()").getall() In [6]: text = text_list[1].strip() In [7]: text Out[7]: '"Terence Crawford"'

web-scraping xpath scrapy css-selectors

回答 1 投票 0

抓取我不想但不知道如何排除的链接

假设我有这个结构假设我有这个结构 <div data-next="link0"> <a href="link1"/> <a href="link2"/> <a href="link3"/> <a href="link4"/> </div> 并且使用我的规则对象，我只想访问 link0，而不访问 link1、link2、link3、link4。我怎样才能做到这一点？我试过了 Rule(LinkExtractor(restrict_xpaths=('//div[@data-next]/@data-next')), callback='parse_item'), 但它不起作用，因为我需要对元素的引用，而不是直接的链接。但如果我删除@data-next，link1，link2，link3，link4也会被刮掉。那么，有什么方法可以在这种情况下使用 Rule 对象来抓取 link0 吗？ Rule(LinkExtractor(restrict_xpaths='//div[@data-next]', tags='div', attrs='data-next'), callback='parse_item'), 默认情况下，LinkExtractor 查找 <a> 标签和 @href attr。在这种情况下，您必须指定搜索中应包含哪些标签和属性。更多关于 Scrapy 文档 : 参数：（...） tags（str 或 list） – 提取链接时要考虑的标签或标签列表。默认为 ('a', 'area')。 attrs（列表）– 查找要提取的链接时应考虑的属性或属性列表（仅适用于在标签参数中指定的标签）。默认为 ('href',) 下面xpath //div[@data-next="link0]

python xpath scrapy

回答 2 投票 0

抓取 sofifa.com 时出现异常响应

我正在尝试使用 scrapy 工具抓取 sofifa.com 。使用下面的代码，我试图抓取仅存在于第一页中的 60 名玩家的全名和评分，但我得到了超过 60 名并且......

web-scraping scrapy web-crawler

回答 2 投票 0

Scrapy脚本，如何查找特定关键字并返回或打印url

好的，所以我必须完全编辑它。我已经让脚本部分工作，我可以毫无问题地启动它，这是脚本。粘贴链接在这里：http://pastebin.com/SKa5Wh1h 和...

python xpath web-crawler scrapy

回答 2 投票 0

如何使用 python scrapy 解析 XML 站点地图？

我正在尝试使用 scrapy 抓取以下站点地图：https://comercialtrevino.com/sitemap/sitemaprssatom_products.xml 一开始我想使用 scrapy shell，然后我会写一个蜘蛛来

python scrapy

回答 1 投票 0

为什么Scrapy一直显示“正在加载scrapy.core.downloader.handlers.http.HTTPDownloadHandler”的错误消息“http”方案

我第一次在我的 Mac arm64 上运行 Scrapy 项目。无论起始 URL 是什么，Scrapy 程序都会不断显示错误消息： “正在加载 scrapy.core.downloader.handlers....

python macos scrapy

回答 1 投票 0

Python Scrapy 废弃动态加载的网站

我目前正在开发一个网络抓取项目，使用Scrapy从https://www.discoveruni.gov.uk/course-finder/results/中提取课程信息。由于网站，我遇到了挑战...

python web-scraping dynamic scrapy xmlhttprequest

回答 1 投票 0

Scrapy 爬取了 0 页 0 项

我使用 scrapy 创建了一个爬虫，从 Indeed 上抓取数据，希望将职位、公司、地点、描述、资格返回到 csv 文件中。但我遇到了问题：它没有返回...

python web-scraping scrapy web-crawler

回答 1 投票 0

Python Scrapy 单页启动速度极慢

我是 Scrapy with Splash 的新手，希望得到一些建议。我正在尝试抓取网站 https://www.canada.ca/en/revenue-agency/services/forms-publications/forms.html，其中包含一个 lis...

python scrapy splash-screen

回答 1 投票 0

为什么pyhton找不到scrapy生成的包？

平台：Windows 10。 IDE：v.s.代码 Python版本：3.12.1 Scrapy版本：2.11.0 我使用终端生成了一个 scrapy 项目： scrapy startprojet NewScrapyProject 之后我去了...

python windows import scrapy

回答 1 投票 0

尝试使用Scrapy发出POST请求

总的来说，我是网络抓取的初学者。我的目标是废弃网站“https://buscatextual.cnpq.br/buscatextual/busca.do”，问题是，这是一个科学网站，所以我需要选中“

python web-scraping post scrapy

回答 1 投票 0

如何通过Scrapy获取城市名称

我正在尝试使用以下网站的scrapy从每个电缆入口中抓取城市名称：https://www.submarinecablemap.com/ 我的目标是列出所有城市，这些城市是...

python scrapy

回答 1 投票 0

scrapy 相关问题

最新问题