web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

TypeError: set_user_agent() takes 2 positional arguments but 3 were given How i can set 3 aguments to the method

我看到这个答案:TypeError: set_user_agent() takes 2 positional arguments but 3 were given for my problem 但我不明白如何在我的代码中使用这个答案。 导入 scrapy 来自 scrapy.

回答 0 投票 0

如何解决爬取网站时随机弹出的验证码窗口和警告框

我在爬取网站的时候,网站会时不时跳出验证码提醒。 我该如何解决? 我应该使用并行线程来监控吗? 或者还有其他更好的方法吗?什么……

回答 0 投票 0

网站标志

是否可以编写一个可以提取网站徽标的python代码? 假设我对教育网站(学校、大学)感兴趣并想要他们的徽标。我可以下载每个徽标吗...

回答 0 投票 0

当站点检测到异常流量时,如何继续抓取数据?

我试图制作一个网络爬虫是为了好玩,但我遇到了一个难题。我找到了一个中文网站,其中包含一些有趣的数据,并决定制作一个机器人:1) 请求网站的 url,2) 广告...

回答 0 投票 0

不同的 URL 但得到相同的内容

我正在为爬虫编写代码。 我的目标:从网站获取数据 我的麻烦: 我写了一个迭代器来访问网站的不同页面,就像 https://www.kroger.com/pl/hair-care/21002?

回答 0 投票 0

Puppeteer 持久登录 Cookie

**当我尝试使用 Puppeteer 登录网站时,我能够这样做,我的问题是当我尝试重置 cookie 以不重复登录过程时,下面是我的登录逻辑 ** (异步()=> ...

回答 0 投票 0

每个线程添加新任务时等待线程完成

所以我有一个网络爬虫。它首先将 baseURL 任务放入阻塞队列。然后,如果找到新链接,每个线程都会选择任务并在队列中输入新任务。终止是基于深度的,所以不确定...

回答 1 投票 0

当我有 WARC 偏移量时,如何有效地解析 WET 文件?

Common crawl 提供了 warc 文件,其中包含最多的数据和 wec 文件,这些文件的数据量要小得多(并且与我的目的相关)。 我下载了 parquet 索引,...

回答 0 投票 0

我正在使用代理 api 从 imdb 测试和抓取电影,但我得到的只是 [scrapy.core.engine] DEBUG: Crawled (200)

导入scrapy 从 scrapy.linkextractors 导入 LinkExtractor 从 scrapy.spiders 导入 CrawlSpider,规则 从 scraper_api 导入 ScraperAPIClient client = ScraperAPIClient('隐藏密钥') 类

回答 0 投票 0

我正在学习如何用 python 抓取网站!但我不知道如何做树结构

当我按下“https://dicom.innolitics.com/ciods”这个网站上的每个项目时(比如 CR 图像、患者、参考患者序列......这些值),我想保存项目的描述...

回答 0 投票 0

没有找到名为'scrapy.Spider'的模块。

试着用最新版本的scrapy来执行下面的代码。不知道发生了什么事 import scrapy from scrapy.Spider import Basespider class crawler (Basespider): name = "crawler" ...。

回答 1 投票 0


Python谷歌图片下载不成功

我在通过谷歌图片下载器抓取一张图片。原本能用的代码开始突然停止工作了如何解决这个问题?代码和错误信息如下,从 ...

回答 1 投票 5

Scrapy在使用xpath选择器时不提供任何输出。

这是我试图在scrapy shell中运行的代码,以便从dailymail.co.uk中获取文章的标题。 headline = response.xpath("/div[@id='js-article-text']h2text()").extract() $ scrapy ....

回答 1 投票 0

img crawler AttributeError: 'int' object has no attribute 'img' python 3.7.6 beautifulsoup4

# -*-编码:utf-8 -*-从bs4导入请求导入BeautifulSoup headers = { "User-Agent": "Mozilla5.0 (Windows NT 10.0; Win64; x64) AppleWebKit537.36 (KHTML, like Gecko) Chrome81.0......"。

回答 1 投票 -1

用python和BeautifulSoup进行网络搜刮。

我试图从一个网站提取数据,数据是在一个表中:url=requests.get("xxxx") soup =BeautifulSoup(url.content) table=soup.find_all("table")[0] rows = table.find_all('tr') I ...

回答 1 投票 0

在谷歌学术中使用beautifulsoup和python中的selenium进行Web Scraping。

我正试图从Google Scholar profiles中刮取。我需要我指定的特殊规格的档案。我在Python中使用Beautifulsoup和selenium。例如,我需要教授在 ...

回答 1 投票 0

让php爬虫跳过特定的URLs。

我有一个GenerateSitemap.php文件,在这个文件中我可以配置爬虫,但我不明白应该如何让爬虫跳过一些特定的URL,例如(https:/example.comnoindex-url)。I ...

回答 1 投票 0

如何从维基百科中提取语义事实 [封闭式]。

我想写一个程序,通过wikipedia的页面,然后阅读那里的文章,然后生成事实的形式("对象""关系类型""对象")。事实的例子可能是("Age Of ...

回答 1 投票 -6

为什么我的Python网络爬虫会抛出一个无法与所选元素交互的错误?

所以我试图在youtube搜索框中输入简单的内容,这是错误:Selenium.common.exceptions.ElementNotVisibleException: Message: element not interactable 这是我的代码: from ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.