scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Scrapy:ValueError:XPath错误:无效的表达式

我正在尝试为一个项目学习scrapy。我收到此错误 ValueError: XPath error: Invalid expression 但我不明白我的脚本出了什么问题。 这是我的剧本 def parse(self, res...

回答 1 投票 0

Scrapy 未在 Cron Job 中运行

我正在尝试使用 cron 选项卡安排一个 python 脚本,该脚本应在 MacOS 上每天上午 9 点运行。 以下是我在 crontab 中使用的命令 - 0 9 * * * /库/框架/Python.framework/

回答 1 投票 0

如何让scrapy playwright出错时重试

所以我正在尝试编写一个使用Scrapy-playwright的爬虫。 在之前的项目中,我只使用了 Scrapy 并设置了 RETRY_TIMES = 3。即使我无法访问所需的资源,蜘蛛也会尝试

回答 1 投票 0

将蜘蛛部署到 Scrapy Cloud 时,包含我的帐户凭据的 JSON 文件应该使用哪个路径?

我想使用Scrapy Cloud来部署爬虫。我使用 CrawlerProcess 从 main.py 文件运行我的蜘蛛。然后我使用 pandas 对爬取的数据进行一些操作。最后,我发布清理后的...

回答 2 投票 0

使用 CSS 选择器选择一组元素和文本

我有一个 HTML 页面,例如:- 名字 文本 名字 文本 ... 我有一个 HTML 页面,例如:- <div> <a href='link'> <u class>name</u> </a> text <br> <a href='link'> <u class>name</u> </a> text <br> <a href='link'> <u class>name</u> </a> text <br> <a href='link'> <u class>name</u> </a> text <br> <a href='link'> <u class>name</u> </a> text <br> </div> 我需要选择一个这样的组:- <a href='link'> <u class>name</u> </a> text <br> 我需要从一组中选择 3 个值:链接、名称和文本。 有什么方法可以选择这样的组,并使用 CSS 选择器、Xpath 或其他方式从 scrapy 中的每个组中提取这些特定值? Scrapy 提供了一种机制,可以使用 yield 作为项目,定义键值对的 Python 对象,在 html 页面上 Items 多个值。 您可以单独提取,但也可以将它们作为键值对一起生成。 要提取元素属性的值,请使用 attr()。 要提取innerhtml,请使用文本。 就像你可以在 scrapy 中定义解析函数一样: def parse(self, response): for_link = response.css(' .row.no-gutters div:nth-child(3) div:nth-child(8) a::attr(href)').getall() for_name = response.css(' .row.no-gutters div:nth-child(3) div:nth-child(8) a u::text').getall() for_text = response.css(' .row.no-gutters div:nth-child(3) div:nth-child(8)::text').getall() # Yield all elements yield {"link": for_link, "name": for_name, "text": for_text} 打开 items.py 文件。 # Define here the models for your scraped # items # Import the required library import scrapy # Define the fields for Scrapy item here # in class class <yourspider>Item(scrapy.Item): # Item key for a for_link = scrapy.Field() # Item key for u for_name = scrapy.Field() # Item key for span for_text = scrapy.Field() 了解更多详情,阅读本教程 如果可以像这样将文本换行: <a href='link'> <u class>name</u> </a> <span>text</span> <br> 然后你可以像这样选择 CSS 中的所有内容: a, a + span {} 或者您可以分别设置这两个样式: a {} a + span {} + 的意思是“紧随其后”或“紧随其后”。

回答 2 投票 0

如何使用Scrapy选择特定类别

我正在尝试抓取包含特定信息的页面。 网址:https://www.artisans-du-batiment.com/trouver-un-artisan-qualifie/?job=Charpentier&place=35000%2F35900 我想选课...

回答 1 投票 0

如何在scrapy中使用自定义代理(IP地址)

我正在尝试将 scrapy-rotating-proxies 与自定义代理一起使用。我在一些视频中看到他们使用 像这样旋转代理并添加像这样的代理 我正在尝试使用我自己设备的代理...

回答 1 投票 0

Scrapy-selenium 错误:TypeError:WebDriver.__init__() 得到意外的关键字参数“executable_path”

我正在尝试设置 scrapy-selenium 来进行一些抓取: pip 安装了 scrappy、scrapy-selenium;下载并放入我的项目目录chromedriver.exe,更新setting.py: 来自 Shutil 我...

回答 2 投票 0

css 定位器返回空列表

我正在 datacamp 上制作网络抓取课程 :D 在会议本身中,我们正在抓取 datacamp 网站以获取课程名称和网址 然而, 我正在尝试在 m 上的 pycharm 上达到相同的结果...

回答 1 投票 0

从交互式 highchart.js 图表中抓取数据

我主要是这个平台上的潜伏者,并尝试使用已提出问题的答案来解决我的问题,但我找不到当前问题的问题。 我尝试从中抓取数据

回答 2 投票 0

Scrapy 提供无序结果

我正在构建一个 python scraper,目前它可以获取多个 URL 并提取有关汽车广告的信息。代码如下所示: 导入时间 导入 csv 导入scrapy 导入 json 来自 scrapy.loader

回答 1 投票 0

如何使用Scrapy从链接列表中的每个链接获取文本信息

我正在尝试从每个链接中抓取一些文本。我有 600 个链接,但这段代码中只有 2 个。 usa-icon-list__content 是包含我需要的信息的类,并且该类被多次使用

回答 1 投票 0

在页面上定位脚本标签

我需要一些帮助来在我正在抓取的网站 otto.de 上定位脚本标签。我可以使用 xpath helper 找到 xpath,但是当我在代码中使用它时,它不返回任何内容。 下面是具体的脚本...

回答 1 投票 0

我想抓取标签内的文本,但是HTML文档中的文本,已经下降了一行[关闭]

我想使用scrapy库从span标签中读取一个单词。问题是我看不懂这个词。在输出中,它只给出了表达式“ ”。 HTML 标签: 我想使用 scrapy 库从 span 标签中读取一个单词。问题是我看不懂这个词。在输出中,它只给出了表达式“ ”. HTML 标签: <span class="item"> <svg width="" height=""> </svg> "1500 KM" </span> 我想读1500公里。 我试过这个: import scrapy fetch("example.com") response.css("span.item::text").get() or : response.css("span.item::text") output: "\n" 我也使用了 strip() 但它不起作用。 无论您从哪个 example.come 网站获取此内容,但要从特定标签中提取文本,您提取的内容都是错误的。 您的 response.css 在这里所做的是提取 span.item 的直接子级。相反,使用 xpath 方法并给出这样的参数来提取 <svg> 标签的兄弟。 response.xpath("//span[@class='item']/text()[2]").get().strip() 这会将文本作为输出。

回答 1 投票 0

我想废弃标签内的文本,但是HTML文档中的文本,已经下降了一行

我想使用scrapy库从span标签中读取一个单词。问题是我看不懂这个词。在输出中,它只给出了表达式“ ”。 HTML 标签: 我想使用 scrapy 库从 span 标签中读取一个单词。问题是我看不懂这个词。在输出中,它只给出了表达式“ ”. HTML 标签: <span class="item"> <svg width="" height=""> </svg> "1500 KM" </span> 我想读1500公里。 我试过这个: import scrapy fetch("example.com") response.css("span.item::text").get() or : response.css("span.item::text") output: "\n" 我也使用了 strip() 但它不起作用。 无论您从哪个 example.come 网站获取此内容,但要从特定标签中提取文本,您提取的内容都是错误的。 您的 response.css 在这里所做的是提取 span.item 的直接子级。相反,使用 xpath 方法并给出这样的参数来提取 <svg> 标签的兄弟。 response.xpath("//span[@class='item']/text()[2]").get().strip() 这会将文本作为输出。

回答 1 投票 0

Scrapy - xpath 返回空列表

我正在从 yelp 抓取餐厅评论,特别是从这个网址 我正在尝试获取审查容器的列表,并且在使用 chrome 控制台进行测试后,将由以下给出

回答 1 投票 0

我正在使用 scrapy 从 Yelp 中抓取数据。我看不到任何错误,但数据没有从蜘蛛中提到的 StartURL 中抓取

items.py 和其他文件的代码如下所述。最后还提到了日志。我没有收到任何错误,但根据日志,scrapy 没有抓取任何页面。 ```` 导入

回答 1 投票 0

如何使用Scrapy从动态加载的网站(Fincaraiz)抓取链接

我需要有关如何在Python中使用Scrapy从以下页面提取数据的帮助 https://fincaraiz.com.co/apartamentos/arriendos?ubicacion=cali 我需要提取每个项目的链接,例如...

回答 3 投票 0

检查传递到管道的项目类型 - scrapy.item.ItemMeta

短期问题 当检查传递给管道的项目类型时,Scrapy 给了我一个 scrapy.item.ItemMeta 类,而不是看似明显的类。 上下文 管道...

回答 1 投票 0

Scrapy - 仅抓取 url 列表中的第一个 url

我正在抓取罗马、米兰和贝加莫餐厅的评论。对于其中每一个城市,都有一个包含 30 家或更多餐厅的专用 URL。刮刀开始在罗马爬行

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.