scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

无法使用scrapy刮取snapdeal数据

尝试刮掉snapdeal数据时的输出如下:scrapy shell“https://www.snapdeal.com”response.text u' \n Access Denied \n

回答 1 投票 -1

Scrapy的FormRequest没有给出结果

我正在使用Scrapy尝试在此网站上进行搜索。我正在改变的领域是NúmerodoProcesso na ORIGEM,id为'idNumeroOriginario'。但是,Post方法似乎没有改变......

回答 1 投票 2

如何用scrapy获取所有标题和文章?

我目前正在抓取一些网络信息。我不知道为什么,但它只是不能正常工作。如果有人能够纠正我的代码,将不胜感激。这只是一个例子,但我想要...

回答 1 投票 -1

MySQL datetime列WHERE col IS NULL失败

我无法让我的基本SQL查询工作,因为它返回0值,尽管事实上有明显的空查询SELECT * FROM lead AS l JOIN关闭c ON l.id = c.lead_id WHERE c ....

回答 1 投票 0

在Flask中运行python子进程

我有一个以这种方式运行爬行过程的Flask Web应用程序:终端选项卡1:终端选项卡2上的$ cd / path / to / scraping $ scrapyrt http://scrapyrt.readthedocs.io/en/latest/index.html :$ ...

回答 1 投票 0

安装scrapy时出错?

我使用python 3.6,当我尝试在cmd上使用pip安装scrapy时输出如下所示:命令“”c:\ program files \ python36 \ python.exe“-u -c”import setuptools,...

回答 1 投票 0

管道删除无值

我的蜘蛛产生某些数据,但有时却找不到数据。而不是设置如下的条件:if response.xpath('// div [@ id =“mitten”] // h1 / text()')。extract_first():result ['...

回答 1 投票 1

将序列的第N个数字输入到Scrapy Start URL中

我正在寻找一种简短的方法来将序列的第N项输入到Scrapy start URL中。例如,这是添加第24个版本的较长版本:start_urls = ['https://www.example.com/us / ...

回答 1 投票 1

Scrapy InitSpider无法单击正确的登录按钮

我正在尝试使用Scrapy InitSpider登录Tor论坛但是我遇到了以下问题。下面是我处理登录的代码:def init_request(self):##这个函数是......

回答 1 投票 0

Scrapy从列表中解析不同的详细页面

我正在从列表页面抓取网站的详细信息页面,每个细节页面都有一些差异。第1页详细信息: ...

回答 1 投票 2

渲染使用框架集的页面

我正在使用scrapy + splash来为我的大学抓取网站。有些页面很古老,并且使用了我不熟悉的技术。我注意到有些网站没有完全渲染。所有不完整......

回答 1 投票 0

多核执行Scrapy

嗨,您好。目前我正在构建一个运行速度不快的Web scraper。我能以某种方式管理我的蜘蛛使用其他CPU核心或多个相同的蜘蛛并行运行吗? BricoMarcheSpider ......

回答 1 投票 1

在Scrapy中递归折叠二级链接

使用Scrapy,我试图从所有语言中删除维基百科的链接网络。每个维基百科页面都应包含指向唯一标识页面主题的维基数据项目的链接...

回答 1 投票 0

如何在scrapy蜘蛛中使用url的站点地图?

我想创建一个基于网页的sitemap.xml来抓取网址的蜘蛛。所以我没有start_urls。我想确定使用sitemap.xml抓取哪些网址。我想添加一个......

回答 2 投票 0

如何使用scrapy规则从Wiki演员和电影页面爬行到仅演员和fimlography链接中的链接

我最近开始使用python和scrapy。我一直在尝试使用scrapy从电影或演员维基页面开始,保存名称和演员或电影摄影并遍历链接...

回答 2 投票 0

提取嵌入式pdf

我注意到docplayer.net嵌入了很多pdf。示例:http://docplayer.net/72489212-Excellence-in-prevention-descriptions-of-the-prevention-programs-and-strategies-with-the-greatest-evidence-of -...

回答 1 投票 -1

Scrapy LinkExtractor特定网址

我正在抓取一个网站。但是,当前代码重定向我,不会从我想要的URL爬网。网址:http://www.example.com/book/diff/其中diff可以是除/之外的任何内容。加上......

回答 1 投票 0

在抓取两页时忽略请求

我现在每天都在抓这个网站,并且使用DeltaFetch来忽略已经访问过的网页(其中很多)。我面临的问题是,对于这个网站,我需要......

回答 1 投票 1

Scrapy抓取所有站点地图链接

我想抓取固定网站的sitemap.xml中存在的所有链接。我遇到过Scrapy的SitemapSpider。到目前为止,我已经提取了站点地图中的所有网址。现在我想爬过每个......

回答 2 投票 0

抓取javascript生成的网页

将javascript内容转换为HTML以将其用于脚本时,我遇到了问题。我使用了多种方法作为phantomjs或python QT库,他们都很好地获得了大部分内容,但问题是......

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.