scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

如何在Scrapy中访问子类？

所以我试图抓取以下页面：https://www.inmuebles24.com/departamentos-en-renta-en-orizaba.html。我想访问 posts-container 的子级以及其中的信息。我

python web-scraping scrapy

回答 1 投票 0

如何消除unicode中的电话表情符号？

在网页抓取过程中，在删除所有 html 标签后，我得到了 unicode 中的黑色电话字符 \u260e (☎)。但与这个回应不同的是，我也想摆脱它。我用了以下

python regex python-2.7 scrapy

回答 3 投票 0

css 选择器可以正确识别 scrapy shell 中的项目，但在我运行蜘蛛时却不能正确识别

csv 返回除“href”标签之外的所有空链接。我认为这可能与get请求有关。我在某处读到，你只能执行一个，然后你必须解析，我只是不......

python css xml web-scraping scrapy

回答 1 投票 0

从 Celery 中的脚本运行 Scrapy 时出现问题：安装的反应器与请求的不匹配

有很多方法可以从脚本（文档）启动 scrapy 蜘蛛。但是当你在 Celery 中处理它时，它就变得有些复杂了。我想要的是一个能够启动 scrapy 的函数...

scrapy celery twisted

回答 1 投票 0

如何将带有Scrapy请求的自定义元数据传递到自定义中间件中？

目标：尝试通过“scrapy.Request”的“meta”属性传递自定义“captcha_data”，以便在跨不同蜘蛛的自定义中间件中使用它，每个蜘蛛都有其独特的“captcha_data”。 ...

python-3.x web-scraping scrapy middleware captcha

回答 1 投票 0

我的蜘蛛在Scrapy中根本不进入yield scrapy.Request()

我在 Scrapy 中的蜘蛛遇到了问题。根据搜索键，我抓取了搜索结果页面并找到了链接。但是下一个抓取结果页面的yield scrapy.Request() 并没有进入...

callback scrapy web-crawler

回答 1 投票 0

理解Scrapy Python：重构parse方法不起作用

我有一个可以运行的蜘蛛代码。类 MySpider(BaseScrapper): 名称 =“我的蜘蛛” def parse(self, 响应, **kwargs): self.logger.info(f"解析：处理{响应...

python python-3.x scrapy

回答 1 投票 0

Scrapy FormRequest 用于复杂的有效负载

在一个包含律师工作详细信息的网站中，我尝试通过这个 4 层算法来抓取信息，其中我需要执行两个 FormRequest：访问包含提交的搜索框的链接...

python scrapy payload scrapy-request

回答 2 投票 0

scrapy 仅通过第一个链接

我一般来说是scrapy和python的新手，我正在尝试制作一个scraper，从页面中提取链接，然后编辑这些链接，然后浏览每个链接..我正在将playwright与scrapy一起使用。

python scrapy playwright-python

回答 3 投票 0

django celery [celery.worker] 调试：定时器唤醒！运行 scrapy 进程时的下一个预计到达时间

我正在 Django 中使用 celery 在 task.py 文件中运行一个简单的蜘蛛。运行我的蜘蛛的代码如下：文件任务.py： @shared_task(绑定=True) def scrape_amazon_products(self,products_urls,

python django scrapy celery

回答 1 投票 0

抓取 Wallmart 时出现 Python Scrapy Shell 错误

我正在使用 scrapy 抓取 walmart.com。当我获取 https://www.walmart.com/ 时没有错误，但尝试获取“https://www.walmart.com/search?q=tablets&typeahead=tabltes&q...

python web-scraping scrapy

回答 1 投票 0

使用 Scrapy 抓取《纽约时报》

我正在尝试使用 Scrapy 来废弃《纽约时报》的一个学校项目。我尝试使用 NYT 提供的 API，但他们不允许访问最近的文章。我试图废弃这个网站：htt...

python scrapy web-crawler

回答 1 投票 0

Scrapy 蜘蛛会跳过页面并在结束前停止

我正在使用 scrapy 和 Playwright 开发一个蜘蛛来抓取零售品牌网站。基本上，它正在解析所有页面上所有产品的所有颜色的所有图像（页面 -> 产品 -> 颜色 -&...

python web-scraping scrapy playwright scrapy-playwright

回答 1 投票 0

BeautifulSoup4 中 find_all 的问题

我想在以下网站获取信息。我需要书名、代码、价格等。例如，让我们关注 ISBN 代码。我想在 html 中找到任何包含 ...

python web-scraping beautifulsoup scrapy findall

回答 1 投票 0

无法使用scrapy登录Instagram

我正在尝试使用 scrapy 登录 Instagram 来扫描和阅读评论，但我似乎无法登录，看起来请求被机器人阻止了。有没有更好的方法来尝试 scrapy

python scrapy

回答 1 投票 0

使用 Scrapy 和 Python 从一个脚本和 JavaScript 网站进行网页抓取

嗨，我正在尝试从下面的脚本中抓取（使用Scrapy）这个网站https://www.vaniercollege.qc.ca/sports-recreation/weekly-schedule/ 脚本.py 导入scrapy 从 scrapy.crawler 导入

python html web-scraping scrapy

回答 1 投票 0

使用带有::before的CSS选择器进行抓取不显示文本

我正在尝试使用 scrapy 从这个 eBay 列表中删除周一上午 9:30 的内容。来自 scrapy shell scrapy shell https://www.ebay.com/itm/145599690533?： >>> response.css('span.ux-timer__time-left::

python css web-scraping scrapy css-selectors

回答 1 投票 0

如何修复 Scrapy-Selenium 不产生输出？

Selenium 请求可以工作，但不能使用 scrapy-selenium。页面加载后，我从网站收到 200 响应，但没有收到任何错误，因为它没有产生任何输出。类 SeamdbTestSpider(scrapy.Sp...

python selenium scrapy

回答 2 投票 0

“在 Windows 上使用 scrapyd-deploy 将 Scrapy 项目部署到 Scrapyd 时出现权限错误”

我正在尝试使用 scrapyd-deploy 将 Scrapy 项目部署到 Windows 环境上的 Scrapyd，但遇到了 PermissionError。这是我的环境：操作系统：Windows 10 Python版本：3.11

python windows scrapy scrapyd scrapyd-deploy

回答 1 投票 0

Scrapy 广泛爬行返回错误“filedescriptor out of range in select()”

我正在尝试使用 Scrapy 在 2,000 个域上运行简单的广泛爬网。我有 4 个列表，每个列表有 500 个域，然后我简单地在这 4 个列表上运行 process.crawl。我只是在抓取他们的主页...

python web-scraping scrapy web-crawler

回答 1 投票 0

scrapy 相关问题

最新问题