web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”（例如使用Excel VBA）的问题应该*进行彻底的研究*，因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序，定制软件的开发，甚至是标准化方式的手动数据收集。

使用 for 循环在 R 中抓取多个页面的数据（rvest 包）

我正在开发一个项目，需要从网页列表中抓取一些数据（总共，我打算浏览约 1000 个页面）。每个网页的格式都非常相似，所以我可以写一个......

r web-scraping rvest

回答 1 投票 0

如何读取CDPJSHandle {}的值？

我只是想从网站上删除一些东西。当我尝试访问元素上的属性值时遇到问题。该值返回 CDPJSHandle {} 而不是 ...

javascript web-scraping puppeteer

回答 1 投票 0

如何使用rvest模拟按钮点击

我正在尝试抓取一个需要按按钮才能填充表格的网页。我可以对某些按钮实现此目的，但不能对其他按钮实现此目的。我正在尝试使用 rvest 创建一个可重现的管道...

css r web-scraping rvest buttonclick

回答 1 投票 0

read_html() 不从网站 HTML 代码返回表格

我正在尝试从 https://www.hockey-reference.com/leagues/NHL_2025.html 中提取团队统计和团队分析（5-on-5）表。当我使用 rvest 包中的 read_html() 函数时...

html r web-scraping rvest

回答 1 投票 0

使用 R 从服务器/云自动进行网页抓取（无需使用 PC）

我的目标是在 R 中抓取一些网站并重复此操作，包括一些清理和格式化，作为日常例程，而无需使用计算机。也就是说，这个过程可能需要...

r web-scraping automation rstudio-server

回答 1 投票 0

从维基百科进行网络抓取后获取空数据框

我正在尝试从维基百科页面提取数据并将其加载到数据框中。在网络抓取并运行数据帧之后，Python 返回一个空数据帧，但事实并非如此。他...

python html pandas web-scraping beautifulsoup

回答 1 投票 0

在 R 中使用 rvest::session 进行网页抓取，无需“提交”

我需要从这个网站下载pdf文档：https://tealprod.tea.state.tx.us/Audit/Public/PDFViewer.asp。我下面的代码从第一个下拉菜单中选择年份，该菜单填充学校

r forms web-scraping rvest

回答 1 投票 0

如何在 iframe 内使用 playwright 运行 JavaScript 函数？

我正在从网站上抓取数据，在某些时刻，有必要解决reCAPTCHA v2。我正在使用 2Captcha 服务来解决这些验证码。收到 API 响应后，我...

node.js typescript web-scraping playwright

回答 1 投票 0

我在使用 python 抓取网站时遇到连接错误

我正在尝试使用请求库、BeautifulSoup、正则表达式从考生那里抓取问题和答案以获得主题问题，然后下载图像。我从公关那里得到了很多这样的代码...

python web-scraping

回答 1 投票 0

无法使用 Selenium 访问废料数据的链接

我是使用 Selenium 的新手。最近，我试图从 JODI 数据源中删除数据，这是这个链接 JODI 数据源。该链接在浏览器中是有效的，但是当我使用 Selenium 或 bs4 访问时

selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

Python BeautifulSoup 网络抓取 Tripadvisor 查看评论

所以我是网络抓取新手，并尝试查看特定酒店的评论列表。我最初尝试通过选择特定课程来查看特定评论，但我没有得到任何

python web-scraping beautifulsoup python-requests data-analysis

回答 2 投票 0

从公共 S3 存储桶下载文件

我正在尝试从公共 s3 存储桶下载一些文件，作为 Google Analytics 课程的一部分。但是，我没有收到请求中返回的链接。我不确定我是否需要使用 boto3 还是

python python-3.x amazon-web-services web-scraping

回答 3 投票 0

抓取帖子从库存耀斑生成 dom 元素

想知道是否有人可以为我指明如何从该网站抓取数据的正确方向。我理解数据是在页面完全加载后填写的，并且已经看到...

javascript python web-scraping

回答 1 投票 0

如何使用 R 包 rvest 正确执行 Xpath 英文文本搜索（目前似乎不起作用）？

学习 rvest 并希望用它来查询信息网站以确定它们是否包含（然后可以提取）某些信息。例如，在美国疾病预防控制中心主网站上： https://...

r web-scraping xpath rvest

回答 1 投票 0

当我导航到 URL 并获取 TABLE 标记的内容时，它是空的

我正在尝试从这个网站 https://data.anbima.com.br/debentures/AALM11/agenda?page=1&size=100& 抓取数据，当我查看 DevTools > Elements 时，它有一个 TABLE 标签与...

python selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

从图表中获取数据点并关闭阴影根内的模态

我正在尝试抓取网站上的图表：https://www.xe.com/currencycharts/?from=SGD&to=USD&view=5Y 首先我尝试通过网络请求获取数据：如何从 dyna 获取数据...

python selenium-webdriver web-scraping

回答 1 投票 0

如何在没有直接链接的情况下下载验证码图像

我正在尝试从命令行客户端访问 sci-hub.io，而不是击败其验证码系统。当您将 doi 发布到其首页时，它会返回格式为 http://moscow.sci-hub.io/abc123blah/... 的 pdf url

python web-scraping captcha

回答 2 投票 0

为什么 page.evaluate() 函数代码不在异步函数中执行？ - 傀儡师

const getLastCarData = async (page, make) => { 让排序=升序；让 url = `https://www.xxxxxxxxxxxx/xxxxxxxxx?make=${make}&postcode=XXXXXXX&sort=${sort}`; // 等待 page.goto(...

javascript node.js web-scraping async-await puppeteer

回答 1 投票 0

无法使用 BS4 从巴塞罗那足球俱乐部网站获取西甲积分表的正确数据

我正在尝试从 https://www.fcbarcelona.com/en/football/first-team/stands 网站提取积分表数据。我想提取当前表（24-25）的数据，但正在提取...

python python-3.x web-scraping beautifulsoup python-requests

回答 2 投票 0

Python Web Scraping Selenium+BeautifulSoup with gspread 和 Google Sheets 大数据量问题

我正在制作一个网络抓取工具，可以从该页面抓取大约 1500 种产品的所有数据。我正在提取商品名称，如果是畅销品，它是什么类型的衣服，怎么样

python selenium-webdriver google-sheets web-scraping beautifulsoup

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.