web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

使用Scrapy Spiders无需下载即可处理图像

我正在尝试使用Scrapy Spider解决问题(来自HackThisSite的编程问题):( 1)我必须登录一个网站,提供用户名和密码(已经完成)(2)之后,我。 ..

回答 1 投票 2

有人可以告诉我为什么我这个网址被抓取比其他网页更多吗?

我查看了我网站的网站统计信息,看到特定网址比其他网站获得更多点击量。我只是扫描网站试图找出位置但文件不存在。 { “版本”: “1.0”, “PROVIDER_NAME”:...

回答 1 投票 0

如何搜索按日期和视图排序的YouTube视频?

我正在创建一个网页报废应用,可以抓取视频数量最多且同时最近上传的YouTube视频。或者简而言之,它将搜索趋势/病毒视频。我试过这个......

回答 1 投票 0

使用单个Web爬网程序以预定义的格式使用附件来废弃多个网站?

我有一个大约的列表。 52个网站导致大约约。我需要抓取的150个网页。基于我的无知和缺乏研究,我开始为每个网页构建爬虫......

回答 2 投票 0

Tika Parser放慢了StormCrawler的速度

我有相当常见的任务,拥有数千个网站,并且必须尽可能多地解析(当然,以适当的方式)。首先,我使用了类似风暴战斗机的配置,使用......

回答 2 投票 1

点击“提交”后VBA Excel提取新的网页数据

我试图从一个通过API编号提供油井数据的网站提取一些信息(API是美国每口井的唯一编号)网站:http://sonlite.dnr.state.la.us/sundown/ cart_prod / ...

回答 2 投票 2

问题爬行亚马逊,元素无法滚动到视图中

我在亚马逊上抓取网页时遇到问题。我尝试过使用:执行JS脚本操作链显式等待似乎没什么用。一切都抛出一个例外或错误或另一个。基地......

回答 1 投票 2

如果图像属性没有确切的src,如何保存图像?

我想抓取并保存来自页面源的页面的图像:截图我尝试了几个python库来保存这个图像像scrappy和selenium但是因为图像的src他们...

回答 1 投票 0

风暴履带中铲斗号码的用途是什么?

在使用分区“host”抓取多个网站时,也会根据主机生成也称为存储桶的分区密钥。并且每个spout实例都有一个桶来获取URL。怎么了 ...

回答 1 投票 0

我怎么能抓住所有的 contents?(python3.6)

当使用python3和BeautifulSoup从Web获取指定的内容时,我无法获得“td”中的所有信息。这是我从bs4导入的代码导入请求BeautifulSoup def ...

回答 3 投票 0

如何在StormCrawler中使用快速URL过滤器?

我遇到了快速网址过滤器。它提供了几个选项,例如将过滤器应用于特定域。有人可以查询有关其使用情况的更多详细信息以及如何在url filters.json中配置它?

回答 1 投票 0

Scrapy爬虫什么告诉我这个输出?

我的scrapy测试代码如下。我通过scrapy shell测试它,它工作。但是现在,如果我最终开始编写脚本,则不会出现输出。有什么不对?谢谢。我的代码到目前为止:...

回答 1 投票 0

python3 urllib.request将永远阻止在gevent中

我想编写一个蜘蛛程序,在python3中使用gevent下载网页。这是我的代码:import gevent import gevent.pool import gevent.monkey import urllib.request gevent.monkey.patch_all()...

回答 2 投票 1

从多个网站提取文本

来自bs4导入BeautifulSoup导入重新导入urllib2 import urllib list_open = open(“weblist.txt”)read_list = list_open.read()line_in_list = read_list.split(“\ n”)for line_in_list中的url:...

回答 1 投票 1

列出所有具有占位符图像的产品

我正在运行Drupal 8,并且在我们的商业中有一个非常大的产品列表,需要进行一些更新。许多产品还没有图像,而是有一个默认的占位符。 ...

回答 1 投票 0

在没有zookeeper,nimbus依赖的情况下以本地模式运行storm crawler

我在mysql中存储url,在lucene中存储索引数据。我正在使用tomcat在多台机器上运行storm crawler作为applcation服务器。我真的需要动物园管理员,雨云和风暴......

回答 1 投票 0

Ruby on Rails,如何确定请求是由机器人还是搜索引擎蜘蛛制作的?

我有Rails应用程序,记录从每个请求到特定URL的IP地址,但在我的IP数据库中,我发现facebook blok IP如66.220.15。*和Google IP(我建议它来自bot)。在那儿 ...

回答 4 投票 15


Python selenium从表中提取数据并单击

亲爱的stackoverflow社区,我最近遇到了试图从以下数据中提取数据的麻烦:https://www2.sgx.com/securities/corporate-information?country=SINGAPORE我的目的是点击...中的每个链接

回答 2 投票 -2

如何在Scrapy CrawlSpider中找到当前的start_url?

当从一个自己的脚本运行Scrapy时,它从数据库加载URL并跟随这些网站上的所有内部链接,我遇到了一个小问题。我需要知道当前使用哪个start_url,因为我必须......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.