web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Python Web 报废 .cgi 表

我想从此页面抓取网球数据:https://www.tennisabstract.com/cgi-bin/leaders.cgi 为了一个任务。 我需要在 Jupyter Notebook 中使用 python 库。 当我尝试抓取这个 .cgi 时...

回答 1 投票 0

Selenium WebDriver 无法存在元素

我正在尝试找到一个要单击的元素。我可以使用 DevTools 从浏览器中找到该元素,但使用 Selenium 时会遇到错误,未找到元素。 我的代码: 从硒导入网络驱动程序 夫...

回答 1 投票 0

如何抓取网站中的所有网页以获取特定内容

我正在尝试在网站上查找带有关键字的所有个人资料。 因此,我正在寻找以牙买加为第二国籍的足球运动员,这无法通过

回答 1 投票 0

当 Headless TRUE 时,Puppeteer 无法找到元素

我在 Puppeteer 方面遇到了一些问题,我想提取一个项目列表,并在 headless 为 FALSE 时成功,但在为 TRUE 时则不然。 首先,我想在映射之前获取这些元素......

回答 1 投票 0

尝试使用 selenium 自动化并从 LinkedIn 抓取信息

我想登录 LinkedIn 帐户,然后搜索公司并抓取公司数据,但是在我自动化登录过程后,我不断收到以下错误 [26224:25040:0314/123926....

回答 1 投票 0

python 报废网站数据提供空值

我正在尝试废弃 MLB BOX 分数和逐场比赛信息。 导入请求 从 bs4 导入 BeautifulSoup url =“https://www.sportsnet.ca/baseball/mlb/games/2618275/” 回应 =

回答 1 投票 0

如何使用 pandas 将一列的随机行插入到另一列?`

提前感谢您的帮助和时间。 以下是相关信息: 亚洲 阿富汗 5,000 约旦 1,188 沙特阿拉伯 619 巴林 8 科威特 162 非洲

回答 1 投票 0

无法抓取通过 JavaScript 动态生成内容的网页

我正在尝试从网页中抓取表格数据,但这不是一个可以使用其 html 标签和 CSS 类或 ID 来抓取的普通网页。网页内容是使用

回答 1 投票 0

如何从Python/Selenium中具有特定类名的div元素中提取重定向URL

我尝试了这段代码,但它不起作用。我搜索了所有资源。 URL 重定向似乎是由 JavaScript 处理的,没有 标签或 onclick 事件。 导入时间 来自硒

回答 1 投票 0

尝试使用 Beautifulsoup 抓取速卖通产品评论

我正在尝试从产品页面收集速卖通评论,例如 https://www.aliexpress.com/item/3256801798731854.html 我已经编写了代码来抓取此页面并收集评论。 我...

回答 4 投票 0

使用 selenium 的 webdriver 时出错

我正在尝试使用硒进行网络抓取。我运行了这段代码: 从硒导入网络驱动程序 路径 =“C:\Users\winwin\Documents\Visual Studio\chromedriver.exe” URL =“https://scratch...

回答 1 投票 0

创建 Xpath 时遇到问题

我面临的问题是 div 类具有相同的名称,但我无法从我附加的屏幕截图的 div 类中获取这些值。我想要的值是“Engineering&Technology, Compu...

回答 1 投票 0

使用 R 抓取动态内容网站的困难

图书馆(阅读器) 图书馆(tidyverse) 图书馆(rvest) 工资_链接 <- "https://www.spotrac.com/mlb/rankings/salary/pitching/" salary_page <- read_html(salary_link) salaries <- html_text(

回答 1 投票 0

如何使用带有 Playwright 的 query_selector_all 获取 iframe 中的文本

我想使用 Playwright 和 Python 从网页上的 iframe 获取文本数据。由于iframe中的数据,当我尝试直接使用page.query_selector_all时它不起作用。 例如,下面的作品...

回答 1 投票 0

为什么当我点击图像时它没有触发事件监听器? (VanillaJS)

我尝试制作一个脚本,可以收集我在网站(https://www.rpsgame.org/)上玩剪刀石头布的一些数据: var h_choice = document.querySelectorAll(".play-page-gamer__choices&qu...

回答 1 投票 0

通过 API 将英镑价格从网站转换为捷克克朗

我正在Python中进行网络抓取,我想使用API将网站价格(英镑)转换为捷克克朗,但价格显示了不同的结果。看起来像是将英镑转换为英镑,确实...

回答 1 投票 0

阻止 Chrome 密码管理器在我登录时出现

我正在 NodeJS 中使用 puppeteer 来自动化浏览器并执行登录。 登录后,会出现 Chrome 密码管理器框,但我想阻止它出现。 我尝试过通过'--

回答 1 投票 0

API - 通过 API 将英镑价格从网站转换为捷克克朗

抱歉打扰各位了。我正在 python 中进行网络抓取,我想使用 API 将价格从网站(英镑)转换为捷克克朗,但价格显示了不同的结果,看起来像是转换的

回答 1 投票 0

使用 Selenium 和 Beautiful Soup 抓取 JavaScript 表

我正在尝试抓取这个网站:https://www.globusmedical.com/patent-education-musculoskeletal-system-conditions/resources/find-a-surgeon/ 该网站似乎使用了 JavaScript,因此...

回答 1 投票 0

python selenium - 无法点击同意

我正在尝试抓取连接后立即请求同意的特定服务器。一旦我手动单击“我同意”,一切正常。但我想自动化整个过程,包括......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.