web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

Web爬虫循环

我在网络爬虫中编写了以下循环。它会在几秒钟后耗尽。我无法弄清楚为什么。 def crawlweb(seed):crawled = [] tocrawl = [seed] page = tocrawl [0]而...

回答 1 投票 0

Python机械化连接失败的问题

我正在运行一个爬虫,它在MAC和Ubuntu系统中运行良好。当我在Windows中运行它时,它会跟踪堆栈跟踪:文件“build \ bdist.win32 \ egg \ mechanize \ _mechanize.py”,第203行,...

回答 2 投票 3

如何将代理添加到BeautifulSoup爬虫

这些是python crawler中的定义:from __future__ import from_statement from eventlet.green import urllib2 import eventlet import re import urlparse from bs4 import BeautifulSoup,...

回答 2 投票 4

如何在以伪分布式模式安装的Hadoop中运行Nutch

我在我的Ubuntu上安装了Nutch 1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果,但我不知道如何在hadoop中运行它?我有Hadoop ......

回答 1 投票 0

Web Crawler go go不同输出相同的代码

我一直在努力做所有的go教程,我被困在网络爬虫。我以为我完成了它,但输出不一致,我没有足够的并发经验来计算......

回答 1 投票 1

Python中的分布式计算 - 网络爬虫

我的目标是构建一个分布式爬虫,一次处理多个网站,也可以处理多个查询。为此,我使用像'...这样的标准软件包在Python中构建了一个Web爬虫。

回答 1 投票 1

将内容长度存储为字段值(也称为索引文档的元数据)

我们希望将抓取页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers = true但我不相信服务器的http-header。所以我们改变了......

回答 1 投票 1

scrapy不会抓取所有内容

我想抓取一个网址,网址为以下格式:www.test.com/category1/123456.html(页面)www.test.com/category1/123457.html .. www.test.com/category2 www.test .com / category3 ...这里是......

回答 1 投票 0

获取网页的HTML代码

我正在尝试使用它的网址获取网页的HTML代码。我写了下面的代码,它可以工作,但比较结果字符串它与我在使用谷歌浏览器时看到的代码不符...

回答 1 投票 0

如何使用Scrapy制作Twitter Crawler? [关闭]

我曾尝试使用Scrapy从Pinterest这样的网站中抓取数据,这些网站不需要登录会话进行数据抓取,但是如何使用Scrapy来抓取和抓取Twitter,因为...

回答 2 投票 1

Ruby:Net :: HTTP和重定向

我正在学习http://ruby.bastardsbook.com/chapters/web-crawling/上的教程,并想对一下处理重定向一点澄清,因为作者使用的国防部网站......

回答 1 投票 1

如何在python中手动管理内存?

当我同时运行我的程序(网络爬虫)时,它通过我的系统需要不同数量的内存或内存,我还测试了其他网络爬虫,我的网络爬虫是ram的两倍...

回答 3 投票 1

检查网站每个链接的最佳方法是什么?

我想创建一个跟踪站点的每个链接的爬虫,并检查URL以查看它是否有效。现在我的代码使用url.openStream()打开URL。那么创建爬虫的最佳方法是什么?

回答 2 投票 2

R数据抓取/抓取动态/多个URL

我试图通过以下网址获得瑞士联邦最高法院的所有法令:https://www.bger.ch/ext/eurospider/live/de/php/aza/http/index.php?lang=de&type=simple_query&query_words= &...

回答 1 投票 0

如何将我的整个输出从iPython笔记本保存为.txt文件?

我编写了一个程序来从ipython笔记本中的twitter抓取数据。该程序提供了大量的数据流作为输出,我想将此输出保存在.txt文件中。我该怎么做?当我打开...

回答 1 投票 0

使用BeautifulSoup解析HTML但在创建BeatuifulSoup对象时遇到困难

html = urlopen(url)bs = BeautifulSoup(html.read(),'html5lib')运行几次后,进程陷入BeautifulSoup(html.read(),'html5lib'),我试图改变HTML ...

回答 1 投票 0

如何在Nutchx2上使用轮数

我也有同样的问题。我只使用此命令进行整个过程:crawl urls / ucuzcumSeed.txt ucuzcum http:// localhost:8983 / solr / ucuzcum / 10 crawl [ ]&...

回答 1 投票 0

在Nutch中每个站点爬一定深度

我正在尝试使用Nutch V1.12抓取大量网站,而我抓取网站没有问题我无法控制爬网,就像我想要的那样。问题主要在于没有......

回答 2 投票 0

无法从网页上抓取类别标题

我在python中编写了一个scraper来从网页上获取不同的类别名称,但它无法从该页面获取任何内容。我真的很困惑,不知道我要去哪里......

回答 2 投票 4

pcntl_fork()函数

因为抓取网页可能会耗费大量时间,所以我想让pcntl_fork()帮助我创建多个子节点来分割我的代码。主 - 抓取域名儿童 - 收到链接时...

回答 3 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.