web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

简单的 jQuery 选择器仅选择 Chrome 中的第一个元素..?

我对 jQuery 有点陌生,所以请原谅我的啰嗦。我想通过 Chrome 的 JS 控制台选择特定页面上的所有 元素: $('td') 然而,当我这样做时,我得到以下输出...

回答 4 投票 0

如何连接整个系统的代理?

如何通过Python连接代理,使其不仅在程序本地工作,而且在系统中的任何地方工作 我尝试了其他模块,但它们仅适用于本地请求。也许有一些...

回答 1 投票 0

通过网页抓取获取商品价格

我想制作一个Python脚本,但不幸的是,当我想检查价格时,我得到的是NONE而不是价格本身(或者如果我更改代码则为00.00美元)。 我找到了很多例子,...

回答 1 投票 0

如何更改数据框以便在 Python 中绘制数据

我想从雅虎金融中抓取多只股票,并将这些股票转换为欧元,例如,如果股票是美元或英镑。我有一个代码可以将历史股票转换为欧元,w...

回答 1 投票 0

为什么职位名称和链接总是比公司名称和职位位置长?

每次运行代码时,列表的长度都与上次不同。而且每次 jobTitles 和链接都比 companyName 和 jobLocation 长。我不知道如何解决这个问题。全部...

回答 1 投票 0

Chromedriver 授予权限和超时错误

我已经下载了适用于 Chrome 的最新版本 chromedriver 版本 125.0.6422.61(64 位)。我的目录中有该文件,路径 (C:\Users\USER PC\Documents\Flatiron\Web_Scraping) 位于 ...

回答 1 投票 0

Selenium 网格请求超时,不执行。 Python 多重处理

我正在使用 Selenium 和多处理在 Python 3.12 中编写一个网络抓取程序。我正在使用 docker 设置 selenium 网格,并使用它并行运行多个 selenium 实例。然而...

回答 1 投票 0

Playwright - page.goto() 在 AWS Lambda 中连续抛出错误

Lambda 1: 剧作家-aws-lambda v0.9.0 节点16 拉姆达 2: 剧作家-aws-lambda v0.10.0 节点18 AWS Lambda CI/CD gitlab 当尝试使用 page.goto() 访问 URL 时,出现连续错误 - 'Error...

回答 1 投票 0

使用 Selenium 和 Python 抓取 Javascript 页面

我正在寻找从网站上抓取列表,您必须选择“是”,选中“按州显示”框,单击“提交并查找医生”,然后选择一个州...

回答 1 投票 0

使用请求模块从网页中抓取网站地址时遇到问题

我正在尝试使用请求模块从网页中抓取 Yauatcha Riyadh 的网站地址,但最终没有得到任何结果。我可以从该页面获取标题和电话号码,但我失败...

回答 1 投票 0

获取所有“存储”在页面中的链接:我尝试着投资该页面

如何获取所有“存储”在页面中的链接 https://www.wohnungsbaugenossenschaften.de/gaestewohnung-finden/teilnehmende-genossenschaften 尝试在基本文本中搜索...

回答 1 投票 0

为什么 Youtube API 为我提供的某些频道的结果与实际结果不同?

我有一个脚本,可以使用 Youtube 的 API 获取信息并将其保存到 Excel 文件中。 该脚本对于某些频道正常运行,而对于某些频道则不能正常运行,例如当我在 BBC 和 CNN 上使用它时

回答 1 投票 0

使用Python抓取Yell.com时如何解决403 Forbidden错误?

我尝试使用 Python 从 Yell.com(英国黄页)抓取企业列表数据,但不断遇到 403 Forbidden 错误。尽管尝试了各种方法来模仿普通用户

回答 1 投票 0

通过 api 进行 Python 网络抓取

我正在尝试使用 Python 从网站(USTA)中删除信息,但失败并出现 403 响应。该网页不需要任何登录,我可以使用开发者工具找到请求和响应...

回答 1 投票 0

我使用 `rvest` 抓取网页并将 read_html() 的结果存储在列表对象中。我关闭了 Rstudio,当我重新打开并尝试加载时,出现错误

这就是我所做的: 图书馆(rvest) 列表[[i]] <- read_html(link) save(list, path = "path.Rdata") Then I closed and reopened the environment. load("path.Rdata") list[[i]] ...

回答 1 投票 0

有没有办法点击iFunny网站首页的“登录”提示?

我一直在尝试找到一种使用 Selenium 自动单击并登录 iFunny 的方法(我为此使用 Python),但我找不到一种方法来检测/找到正确“单击&qu”的元素...

回答 1 投票 0

Selenium Chromedriver 失败并出现堆栈跟踪错误消息

我正在使用 Selenium (Python) 从雅虎财经抓取数据。当使用 WebDriverWait 从此页面查找给定日期的收盘价时,我收到如下异常: 信息: 堆栈跟踪: ...

回答 1 投票 0

在 python 中发送 post 请求时遇到问题

我想从此链接中抓取数据: https://www.orpha.net/consor/cgi-bin/ClinicalLabs_Diagnostictest.php?lng=EN&search=ClinicalLabs_Diagnostictest_TechPurpose 我想按国家使用过滤器...

回答 1 投票 0

在 python scrapy 框架中获取 UnboundLocalError [重复]

我为亚马逊网络抓取编写了一段代码,我的代码对所有亚马逊产品都运行良好,但它确实适用于我不知道的某些特定产品,它为某些产品显示的错误...

回答 1 投票 0

无法标记正确的元素以在 Python 中使用 Selenium 抓取网站

我正在尝试抓取这个网站,一旦插入详细信息,该网站就会显示公用事业账单信息。该网站要求我插入一些信息并单击一些选项。 我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.