web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

尝试检索个人资料网址的Yelp搜索结果页面

[我正在尝试使用Beautiful Soup从Yelp搜索结果页面抓取个人资料URL。这是我目前拥有的代码:url =“ https://www.yelp.com/search?find_desc = tree +-+ removal +-+&...

回答 1 投票 -2

无法阻止htaccess或robots.txt中的AspiegelBot

我在AspiegelBot爬网服务器上的一个站点时遇到问题,这导致许多内核被耗尽。我一直试图在没有成功的htaccess网站中阻止这两个机器人。 ...

回答 1 投票 1

Python:将二进制文字文本文件转换为普通文本

我有一个这样的文本文件:b'第1章\ xe2 \ x80 \ x93 BlaBla'b'Boy \ xe2 \ x80 \ x99s Dead。我想阅读这些内容并将其隐藏到第1章-BlaBla Boy's Dead。并替换为...

回答 1 投票 -1

网站被刮擦的蜘蛛刮擦时可以获得哪些信息?

我有一个仅抓取一个网站的单一文件蜘蛛。网站所有者可以看到哪些信息?在这里,我没有使用自定义设置。 (所以这是默认设置)。例如:1.Spider ...

回答 1 投票 0

为什么将我的工作蜘蛛部署到云平台后,现在只能获得400个响应?

我已使用scrapyd将我的Spider部署到云平台。蜘蛛可以在本地计算机上正常工作。但是现在它只能得到http 400的响应。被禁止吗?或硬件无法处理频繁的...

回答 1 投票 0

Scrapy response.css-两个没有不同标识符的标签

我只是一个初学者,面对一些问题: 1. c4 ... <...] >>>]] > 您可以使用第n个子选择器。在您的特定情况下,将是:response.css("td:nth-child(2)::text").extract()

回答 1 投票 0

虽然刮了Dailymail.co.uk的标题,但Scrapy没有提供任何输出。使用xpath选择器

headline = response.xpath("//div[@id='js-article-text']/h2/text()").extract() 这是我试图在scrapy shell中运行以获取文章标题的代码...

回答 1 投票 0

什么是最简单的搜索引擎工具?

我想构建一个搜索引擎,该引擎将搜寻一个网站,例如recipe.com,或者列出某种产品或服务的网站,将相关信息编入索引,然后能够执行多方面的工作……

回答 2 投票 0

Selenium python无法发送数字作为输入键

我试图将电话号码发送到下面的输入元素>> [[ ] >> 假设我正在寻找正确的位置(即使使用Google Translate,我的韩语也无法适应),我相信您有两个与xpath“ // * [@ maxlength =” 4“]”匹配的框。 我创建了这个示例来填充它们两个: #get elements matching your xpath; this will return 2 items elems = driver.find_elements_by_xpath('//*[@maxlength="4"]') #to fill both boxes numbers=[1234,5678] for i, num in enumerate(numbers): elems[i].clear() elems[i].send_keys(num)

回答 1 投票 0

如何使用scrapy从未知的第n个子p标签获取文本?

我正在尝试获取事件的描述。但是问题在于所有事件的描述都是在任意 标记处。那么我们如何访问该 标签以获取其文本?

回答 1 投票 0

如何将AWS Crawler配置导出为JSON(或类似格式)并签入到源代码管理中?

我的团队在AWS Glue中开发了多个搜寻器,以扫描数据并对目录进行分类。我希望将这些爬网程序检入我们的源代码管理中,但无法找到一种方法。我可以...

回答 1 投票 0

如何在Scrapy上写入加密的数据(使用Feed导出?)>

我是Scrapy的新手,一周前开始使用,我在命令行中使用-o属性来生成文件,并且我希望对该文件进行加密。我相信我需要编写一个自定义Feed ...

回答 1 投票 0

如何用漂亮的汤爬网?

我想抓取网站,我的代码中有一些问题,我希望所有数据都在列表中,但它为我提供了最后一页的数据。请帮忙。...这是我的代码。...导入请求将熊猫导入为pd ...

回答 1 投票 -1

如何防止像Fiddler这样的软件拦截请求并拦截电子发出的请求

根据电子方面的要求,我不希望像Fiddler这样的软件来看看应该如何完成。任何帮助都非常感谢

回答 1 投票 0

如何使抓抓的蜘蛛从起始网址下载图像?

start_urls = ['https://image.jpg'] def start_requests(self):用于self中的url。start_urls:request = scrapy.Request(url,callback = self.parse)产生请求def parse(自身,响应) ):...

回答 1 投票 0

从网址列表中下载视频(python3)

我有一个网址列表(示例网址),每个都包含一个视频:网址= ['https://...live.com/archive/player?live_id = 9368953&artist_id = 44176&type = 1','https ://...live.com/archive/player?...

回答 1 投票 0

嵌套范围内的Python Beautiful Soup解析错误

我正在尝试使用python Beautiful Soup解析HTML。 HTML的一部分如下所示:

回答 1 投票 0

Web抓取中'headers = headers'的问题

我正在练习通过网络爬网从网站获取文本,但是我的'headers = headers'出现了问题。当我运行.py时,它返回如下:AttributeError:'set'对象没有属性'items'...

回答 2 投票 0

[bs4 img搜寻器在python中下载img堆

导入请求从bs4导入urllib导入BeautifulSoup标头= {“ User-Agent”:“ Mozilla / 5.0(Windows NT 10.0; Win64; x64)AppleWebKit / 537.36(KHTML,例如Gecko)Chrome / 80.0.3987.163 Safari /。 。

回答 1 投票 0

每次发送Ajax响应都会更改其值

我正在尝试制作网络爬虫程序,以从博彩公司获得博彩赔率。他们的网站完全由AJAX请求组成,并且我对此没有经验,也无法确定正在发生的事情...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.