scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

selenium.common.exceptions.ElementNotInteractableException

此时在我的代码中执行 sendKeys 时出现以下异常 wait.until(EC.presence_of_element_located((By.ID, "Description"))).send_keys("测试消息") 异常

回答 0 投票 0

robots.txt 中的这一行是什么意思,我应该如何解释它?

我想知道是否允许我抓取以 /kommentare/x 结尾的 URL,其中 x 被替换为整数(例如 /kommentare/2)。 尝试使用 scrapy 访问此 URL 时没有任何

回答 0 投票 0

Scrapy - 用户为所有蜘蛛定义的参数

我正在学习 scrapy,想了解如何创建和访问适用于所有蜘蛛的通用参数。例如,我想将 TEST_ENABLE 定义为 True 并且需要访问...

回答 0 投票 0

Scrapy下载图片并为项目添加图片路径

我有一个由链请求组成的 Scrapy 蜘蛛,我想下载图像并将图像路径添加到项目中。我想说的是项目是嵌套的,例如 item['image_ur...

回答 1 投票 0

scrapy 避免使用 xpath 提取 iframe 中的文本

我有这个代码 loader.add_value('article_content', response.xpath( "//div[@class='entry-content']//text()[not (ancestor-or-self::script or ancestor-or-self:: noscript 或 ancestor-or-self::sty...

回答 0 投票 0

启动某人的项目后无法使用Scrapy:ModuleNotFoundError

我正在研究 scrapy 并从其他开发人员那里收到项目(我们将其命名为“alien_project”),在启动它之后我遇到了 scrapy 问题。我的旧项目可以运行并完成,但是...

回答 0 投票 0

Scrapy 和 Python 解析

我正在学习 Scrapy。例如,有一个网站 http://quotes.toscrape.com 。 我正在创建一个简单的蜘蛛(scrapy genspider 引号)。 我想解析报价,以及去作者的页面......

回答 2 投票 0

用scrapy从多个页面中提取doi

我有这个网页(https://academic.oup.com/plphys/search-results?q=photosynthesis&allJournals=1&fl_SiteID=6323&page=1),我想从中提取信息,例如标题,n .. .

回答 1 投票 0

尝试使用 python 从 flipkart 抓取项目时出错

你能告诉它可能是什么错误吗?我正在尝试从 flipkart 中抓取物品 导入 scrapy flipkart_scrapy 类(scrapy.Spider): 名称='flipkart' urls = ['https://www.flip...

回答 1 投票 0

在 Scrapy 中使用 get_project_settings() 时如何指示代理列表的路径

我正在尝试从我的脚本中运行我的蜘蛛。 它在命令提示符下运行良好,如果我不使用我的代理,它在脚本中运行良好(除了我得到 403,因为我没有使用代理)。 我有...

回答 1 投票 0

如何给爬虫回调函数添加关键字?

我在向爬虫添加关键字时遇到问题。我正在使用 scrapy、烧瓶和钩针。功能是: @crochet.run_in_reactor def scrape_with_crochet(要求): eventual = crawl_runner.crawl(蜘蛛,

回答 0 投票 0

Scrapy - item_scraped_count 在终端中丢失

尝试按照本教程进行操作。但是当我准备部署我的第一个蜘蛛时,item_scraped_count 中缺少状态。 当我执行 fetch、response 等命令时,我会获取数据。 len(嘘...

回答 0 投票 0

使用钩针和烧瓶时从刮刀得到空响应?

我正在尝试了解使用钩针和烧瓶使其成为刮擦器。刮刀有效,但我无法获得输出。 代码是这样的: 进口钩针 钩针.setup() 从时间导入睡眠

回答 0 投票 0

你能告诉它可能是什么错误吗?我正在尝试从 flipkart 中抓取物品

导入scrapy flipkart_scrapy 类(scrapy.Spider): 名称='flipkart' urls = ['https://www.flipkart.com/televisions/pr?sid=ckf%2Cczl&p%5B%5D=facets.brand%255B%255D%3DMi&otracker=

回答 1 投票 0

Scrapy 项目未运行 - python

我尝试运行我的 Scrapy 项目,但我一直收到错误。我附上了错误。任何帮助,将不胜感激! 追溯(最近一次通话): 文件“/Library/Frameworks/Python.

回答 0 投票 0

尝试从外部 python 文件运行多个 scrapy 文件

我正在尝试运行多个 scrapy python 文件,它们位于不同的子包中,例如项目结构就像 我的 Scrapy 项目 运行.py _ _ 初始化 _ _.py Sub_Package_1...

回答 0 投票 0

如何让 scrapy 跟随重定向?

我正在尝试从网页的历史版本中抓取数据作为备份的 Wayback Machine。 我有数千页需要抓取,我不想费心去找出确切的数据……

回答 1 投票 0

Scrapy 将 python 列表传递给项目加载器

我想提取图像 url 列表并使用 scrapy 项目加载器以列表格式存储它 我能够使用提取方法以列表格式获取图像 url,但它只存储一个图像。 代码:...

回答 1 投票 0

如何抓取跨度内的数据

我是新手,想从跨度中检索数据,但他们没有课程。 它们看起来像这样: “3 - 4 habitaciones”, &q...

回答 1 投票 0

Scrapy Spider 没有返回响应

我是蜘蛛的新手并且有这个基本代码来废弃芦苇。 我能够在 scrapy shell 中找到并提取我需要的元素,但我的代码无法正常工作。报错信息这么大,我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.