web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

如何定义要抓取的最大 URL 数量?

我正在使用以下代码从 openAI 进行抓取,但我不知道如何指定最大数量的 URL。请你帮助我好吗? 定义抓取(网址): # 解析 URL 并获取域...

回答 0 投票 0

代码返回空数据框,理解逻辑有问题

这段代码是从一个名为cafef的网站爬取股票数据。输入是网站链接和该网站 HTML 中的元素,预期输出是包含日期、价格、

回答 0 投票 0

如何为 Heritrix3 网络爬虫编写 cron 作业?

我用Heritrix3.0搭建了一个抓取网页数据的作业。但它必须将 Heritrix.java 作为 Java 应用程序运行,然后构建服务器。我必须打开浏览器输入 https://localhost:8443 来构建...

回答 1 投票 0

selenium css 选择器或 xpath 找不到 driver.find_element

我是 selenium 和 python 的新手。在 html 网页中,我可以看到 xpath 和 css 选择器,但我无法使用 python 访问 selenium webdriver 中的元素。 我尝试了两种点击按钮的方式: 自我博士...

回答 0 投票 0

Scrapy Cant Found the Login Form Error: raise ValueError(f"No <form> element found in {response}")

我尝试在网站上使用Scrapy登录:https://starngage.com/plus/en-us/login。 但似乎 Scrapy 找不到登录表单,即使当我检查登录表单元素时它是...

回答 0 投票 0

Scrapy 爬虫无法爬取数据

这是代码,它没有从页面收集数据,我不知道为什么, Vscode : SyntaxError: 'yield' 外部函数 和 jupyter notebook 没有任何错误。 类 multiSpider(scrapy.S...

回答 1 投票 0

设置Selenium代理时遇到问题

爬maoyan_film资料的时候遇到selenium代理设置问题。因为我的ip被猫眼禁止了。 我设置了 selenium 的代理,但是它总是报错,这...

回答 0 投票 0

设置Selenium代理时遇到问题

爬maoyan_film资料的时候遇到selenium代理设置问题。因为我的ip被猫眼禁止了。 我设置了 selenium 的代理,但是它总是报错,这...

回答 0 投票 0

从 Webview 中提取文本

我基本上想从已经加载到应用程序的 Webview 中的网页中提取文本。 作为试验,我构建了一个应用程序来计算卢比符号 (?) 的出现次数...

回答 2 投票 0

在网页上提取数据

我想从这个网页中提取数据到txt https://1xbet.bj/fr/allgamesentrance/crash 或者 https://1xbet.mobi/fr/allgamesentrance/crash 该网页包含一个 iframe,其中包含我的数据 ...

回答 0 投票 0

NameError:不推荐使用的参数:改为使用 output_format,例如output_format="xml"

我正在尝试从一般新闻报道中提取文本,但我不熟悉网络爬虫,所以不确定如何找出这个 NameError: Deprecated argument: use output_format instead, e.g.

回答 0 投票 0

使用 Scrapy,如何向 Web 表单发送 POST 请求(无需登录)并检索结果?

我正在尝试使用 Scrapy (http://www.umdata.org/SearchChurches.aspx) 向此表单发送 POST 请求。我是否正确发送了有效负载(表单数据)? 我想填写并提交我的有效载荷到 f...

回答 1 投票 0

如何让我的 scrapy 蜘蛛通过单击“下一步”按钮从多个页面中提取数据?

我正在尝试使用 scrapy spider 从 gtabase.com 抓取 GTA V 车辆信息。这就是我想要实现的目标 - 使用“https://www.gtabase.com/grand-theft-auto-v/vehicles/#sort=attr...

回答 0 投票 0

Puppeteer:模拟随机站点浏览的解决方案

我对运行在 puppeteer 之上(特别是在 Node JS 上)的解决方案很感兴趣,它可以模拟用户在随机站点中的浏览。我需要的是比 puppetee 更高级别的 API...

回答 0 投票 0

如何通过 puppeteer 使用计算机中的图像作为网站的背景?

我需要在使用 puppeteer 截屏时随机化网站的背景。我想使用存储在本地计算机上的图像,而不必上传到 Imgur 或其他东西。在...

回答 0 投票 0

Scrapy 脚本的简单示例,它遍历给定站点上的所有 URL,并为每个页面生成 URL 作为变量

是否有一个简单的Scrapy脚本示例,可以从python脚本调用并访问网站上的每个URL,给出访问的每个页面的URL。 这是我到目前为止所拥有的,但是这个定义......

回答 1 投票 0

xpath 在控制台中有效,但在 scrapy 中无效

我正在学习网络抓取,我正在尝试抓取这个网站 http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights 所以当我做“scrapy crawl baseket”时,结果是...

回答 2 投票 0

如何在真正的无头模式下使用puppeteer拦截所有页面请求?

我正在尝试抓取网站并获取仅在通过浏览器的“网络”选项卡提供的请求中可用的信息。 我发现了两种情况: 我无法在运行时获取路线,

回答 0 投票 0

使用 Playwright 进行 JavaScript 渲染时不执行 Scrapy 回调

我正在使用带有 Playwright 插件的 Scrapy 来抓取依赖 JavaScript 进行渲染的网站。我的蜘蛛包含两个异步函数,parse_categories 和 parse_product_page。

回答 0 投票 0

使用 Python 抓取搜索结果

我使用 Python 抓取了谷歌搜索结果,准确地说,获取每个关键字的搜索结果数量并将它们保存在 CSV 文件中。但是搜索了将近100个关键字后,它显示了[Not Fou ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.