scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

将序列的第N个数字输入到Scrapy Start URL中

我正在寻找一种简短的方法来将序列的第N项输入到Scrapy start URL中。例如,这是添加第24个版本的较长版本:start_urls = ['https://www.example.com/us / ...

回答 1 投票 1

Scrapy InitSpider无法单击正确的登录按钮

我正在尝试使用Scrapy InitSpider登录Tor论坛但是我遇到了以下问题。下面是我处理登录的代码:def init_request(self):##这个函数是......

回答 1 投票 0

Scrapy从列表中解析不同的详细页面

我正在从列表页面抓取网站的详细信息页面,每个细节页面都有一些差异。第1页详细信息: ...

回答 1 投票 2

渲染使用框架集的页面

我正在使用scrapy + splash来为我的大学抓取网站。有些页面很古老,并且使用了我不熟悉的技术。我注意到有些网站没有完全渲染。所有不完整......

回答 1 投票 0

多核执行Scrapy

嗨,您好。目前我正在构建一个运行速度不快的Web scraper。我能以某种方式管理我的蜘蛛使用其他CPU核心或多个相同的蜘蛛并行运行吗? BricoMarcheSpider ......

回答 1 投票 1

在Scrapy中递归折叠二级链接

使用Scrapy,我试图从所有语言中删除维基百科的链接网络。每个维基百科页面都应包含指向唯一标识页面主题的维基数据项目的链接...

回答 1 投票 0

如何在scrapy蜘蛛中使用url的站点地图?

我想创建一个基于网页的sitemap.xml来抓取网址的蜘蛛。所以我没有start_urls。我想确定使用sitemap.xml抓取哪些网址。我想添加一个......

回答 2 投票 0

如何使用scrapy规则从Wiki演员和电影页面爬行到仅演员和fimlography链接中的链接

我最近开始使用python和scrapy。我一直在尝试使用scrapy从电影或演员维基页面开始,保存名称和演员或电影摄影并遍历链接...

回答 2 投票 0

提取嵌入式pdf

我注意到docplayer.net嵌入了很多pdf。示例:http://docplayer.net/72489212-Excellence-in-prevention-descriptions-of-the-prevention-programs-and-strategies-with-the-greatest-evidence-of -...

回答 1 投票 -1

Scrapy LinkExtractor特定网址

我正在抓取一个网站。但是,当前代码重定向我,不会从我想要的URL爬网。网址:http://www.example.com/book/diff/其中diff可以是除/之外的任何内容。加上......

回答 1 投票 0

在抓取两页时忽略请求

我现在每天都在抓这个网站,并且使用DeltaFetch来忽略已经访问过的网页(其中很多)。我面临的问题是,对于这个网站,我需要......

回答 1 投票 1

Scrapy抓取所有站点地图链接

我想抓取固定网站的sitemap.xml中存在的所有链接。我遇到过Scrapy的SitemapSpider。到目前为止,我已经提取了站点地图中的所有网址。现在我想爬过每个......

回答 2 投票 0

抓取javascript生成的网页

将javascript内容转换为HTML以将其用于脚本时,我遇到了问题。我使用了多种方法作为phantomjs或python QT库,他们都很好地获得了大部分内容,但问题是......

回答 2 投票 0

Scrapy使用xpath抓取ul类是行不通的

我抓取这个网站https://movies.yahoo.com.tw/movieinfo_main.html/id=7819我使用了邋shell的外壳'https://movies.yahoo.com.tw/movieinfo_main.html/id=7819'on我的终端我想爬六个李...

回答 1 投票 1

使用scrapy查找在网站中重复的网址数量

如何查找网站中重复的网址数量?因为杂乱的框架默认不会刮掉重复的URL。我只需要找到重复的URL和次数。我试着这样做,......

回答 2 投票 0

scrapy list return:如何处理/提取列表的每个元素?

我想问一下如何处理一个变量中提取数据的列表。由于(xpath)选择器只提取第一个.extract_first()或所有内容.extract(),我......

回答 2 投票 2

Scrapy不在OBD网站上工作

我正在尝试在oneblockdown.it上使用scrapy-spider来获取最新产品的所有产品并将它们存储到数据库中。我的显示器中的一些站点正在工作,但像OBD这样的人不是......

回答 2 投票 0

scrapy中的Xpath或css选择器属性值

嗨,我是scrapy的新手,我想从html元素中提取属性值。那么什么可能是从html中提取属性值的正确方法。我想提取“data-next -...

回答 1 投票 -1

Python下载图像文件夹

我有Python和Scrapy的问题,我认为脚本仍在工作并将所有数据放在MongoDB上,但当他刮他仍然只在数据库中拍摄照片但我想下载...

回答 1 投票 0

scrapy否认一定长度的单词

我正在尝试实现拒绝规则,我不想抓取一定长度的单词。示例:https://example.com/a/comments https://example.com/z/blog https://example.com/t/public此...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.