scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

如何在Scrapy中访问子类?

所以我试图抓取以下页面:https://www.inmuebles24.com/departamentos-en-renta-en-orizaba.html。我想访问 posts-container 的子级以及其中的信息。 我

回答 1 投票 0

如何消除unicode中的电话表情符号?

在网页抓取过程中,在删除所有 html 标签后,我得到了 unicode 中的黑色电话字符 \u260e (☎)。但与这个回应不同的是,我也想摆脱它。 我用了以下

回答 3 投票 0

css 选择器可以正确识别 scrapy shell 中的项目,但在我运行蜘蛛时却不能正确识别

csv 返回除“href”标签之外的所有空链接。我认为这可能与get请求有关。我在某处读到,你只能执行一个,然后你必须解析,我只是不......

回答 1 投票 0

从 Celery 中的脚本运行 Scrapy 时出现问题:安装的反应器与请求的不匹配

有很多方法可以从脚本(文档)启动 scrapy 蜘蛛。但是当你在 Celery 中处理它时,它就变得有些复杂了。 我想要的是一个能够启动 scrapy 的函数...

回答 1 投票 0

如何将带有Scrapy请求的自定义元数据传递到自定义中间件中?

目标:尝试通过“scrapy.Request”的“meta”属性传递自定义“captcha_data”,以便在跨不同蜘蛛的自定义中间件中使用它,每个蜘蛛都有其独特的“captcha_data”。 ...

回答 1 投票 0

我的蜘蛛在Scrapy中根本不进入yield scrapy.Request()

我在 Scrapy 中的蜘蛛遇到了问题。根据搜索键,我抓取了搜索结果页面并找到了链接。但是下一个抓取结果页面的yield scrapy.Request() 并没有进入...

回答 1 投票 0

理解Scrapy Python:重构parse方法不起作用

我有一个可以运行的蜘蛛代码。 类 MySpider(BaseScrapper): 名称 =“我的蜘蛛” def parse(self, 响应, **kwargs): self.logger.info(f"解析:处理{响应...

回答 1 投票 0

Scrapy FormRequest 用于复杂的有效负载

在一个包含律师工作详细信息的网站中,我尝试通过这个 4 层算法来抓取信息,其中我需要执行两个 FormRequest: 访问包含提交的搜索框的链接...

回答 2 投票 0

scrapy 仅通过第一个链接

我一般来说是scrapy和python的新手,我正在尝试制作一个scraper,从页面中提取链接,然后编辑这些链接,然后浏览每个链接..我正在将playwright与scrapy一起使用。

回答 3 投票 0

django celery [celery.worker] 调试:定时器唤醒!运行 scrapy 进程时的下一个预计到达时间

我正在 Django 中使用 celery 在 task.py 文件中运行一个简单的蜘蛛。运行我的蜘蛛的代码如下: 文件任务.py: @shared_task(绑定=True) def scrape_amazon_products(self,products_urls,

回答 1 投票 0

抓取 Wallmart 时出现 Python Scrapy Shell 错误

我正在使用 scrapy 抓取 walmart.com。当我获取 https://www.walmart.com/ 时没有错误,但尝试获取“https://www.walmart.com/search?q=tablets&typeahead=tabltes&q...

回答 1 投票 0

使用 Scrapy 抓取《纽约时报》

我正在尝试使用 Scrapy 来废弃《纽约时报》的一个学校项目。我尝试使用 NYT 提供的 API,但他们不允许访问最近的文章。 我试图废弃这个网站:htt...

回答 1 投票 0

Scrapy 蜘蛛会跳过页面并在结束前停止

我正在使用 scrapy 和 Playwright 开发一个蜘蛛来抓取零售品牌网站。基本上,它正在解析所有页面上所有产品的所有颜色的所有图像(页面 -> 产品 -> 颜色 -&...

回答 1 投票 0

BeautifulSoup4 中 find_all 的问题

我想在以下网站获取信息。我需要书名、代码、价格等。例如,让我们关注 ISBN 代码。我想在 html 中找到任何包含 ...

回答 1 投票 0

无法使用scrapy登录Instagram

我正在尝试使用 scrapy 登录 Instagram 来扫描和阅读评论,但我似乎无法登录,看起来请求被机器人阻止了。有没有更好的方法来尝试 scrapy

回答 1 投票 0

使用 Scrapy 和 Python 从一个脚本和 JavaScript 网站进行网页抓取

嗨,我正在尝试从下面的脚本中抓取(使用Scrapy)这个网站https://www.vaniercollege.qc.ca/sports-recreation/weekly-schedule/ 脚本.py 导入scrapy 从 scrapy.crawler 导入

回答 1 投票 0

使用带有::before的CSS选择器进行抓取不显示文本

我正在尝试使用 scrapy 从这个 eBay 列表中删除周一上午 9:30 的内容。 来自 scrapy shell scrapy shell https://www.ebay.com/itm/145599690533?: >>> response.css('span.ux-timer__time-left::

回答 1 投票 0

如何修复 Scrapy-Selenium 不产生输出?

Selenium 请求可以工作,但不能使用 scrapy-selenium。页面加载后,我从网站收到 200 响应,但没有收到任何错误,因为它没有产生任何输出。 类 SeamdbTestSpider(scrapy.Sp...

回答 2 投票 0

“在 Windows 上使用 scrapyd-deploy 将 Scrapy 项目部署到 Scrapyd 时出现权限错误”

我正在尝试使用 scrapyd-deploy 将 Scrapy 项目部署到 Windows 环境上的 Scrapyd,但遇到了 PermissionError。 这是我的环境: 操作系统:Windows 10 Python版本:3.11

回答 1 投票 0

Scrapy 广泛爬行返回错误“filedescriptor out of range in select()”

我正在尝试使用 Scrapy 在 2,000 个域上运行简单的广泛爬网。 我有 4 个列表,每个列表有 500 个域,然后我简单地在这 4 个列表上运行 process.crawl。 我只是在抓取他们的主页...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.