web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用 for 循环在 R 中抓取多个页面的数据(rvest 包)

我正在开发一个项目,需要从网页列表中抓取一些数据(总共,我打算浏览约 1000 个页面)。每个网页的格式都非常相似,所以我可以写一个......

回答 1 投票 0

如何读取CDPJSHandle {}的值?

我只是想从网站上删除一些东西。 当我尝试访问元素上的属性值时遇到问题。该值返回 CDPJSHandle {} 而不是 ...

回答 1 投票 0

如何使用rvest模拟按钮点击

我正在尝试抓取一个需要按按钮才能填充表格的网页。我可以对某些按钮实现此目的,但不能对其他按钮实现此目的。我正在尝试使用 rvest 创建一个可重现的管道...

回答 1 投票 0

read_html() 不从网站 HTML 代码返回表格

我正在尝试从 https://www.hockey-reference.com/leagues/NHL_2025.html 中提取团队统计和团队分析(5-on-5)表。当我使用 rvest 包中的 read_html() 函数时...

回答 1 投票 0

使用 R 从服务器/云自动进行网页抓取(无需使用 PC)

我的目标是在 R 中抓取一些网站并重复此操作,包括一些清理和格式化,作为日常例程,而无需使用计算机。也就是说,这个过程可能需要...

回答 1 投票 0

从维基百科进行网络抓取后获取空数据框

我正在尝试从维基百科页面提取数据并将其加载到数据框中。在网络抓取并运行数据帧之后,Python 返回一个空数据帧,但事实并非如此。他...

回答 1 投票 0

在 R 中使用 rvest::session 进行网页抓取,无需“提交”

我需要从这个网站下载pdf文档:https://tealprod.tea.state.tx.us/Audit/Public/PDFViewer.asp。我下面的代码从第一个下拉菜单中选择年份,该菜单填充学校

回答 1 投票 0

如何在 iframe 内使用 playwright 运行 JavaScript 函数?

我正在从网站上抓取数据,在某些时刻,有必要解决reCAPTCHA v2。 我正在使用 2Captcha 服务来解决这些验证码。收到 API 响应后,我...

回答 1 投票 0

我在使用 python 抓取网站时遇到连接错误

我正在尝试使用请求库、BeautifulSoup、正则表达式从考生那里抓取问题和答案以获得主题问题,然后下载图像。我从公关那里得到了很多这样的代码...

回答 1 投票 0

无法使用 Selenium 访问废料数据的链接

我是使用 Selenium 的新手。最近,我试图从 JODI 数据源中删除数据,这是这个链接 JODI 数据源。该链接在浏览器中是有效的,但是当我使用 Selenium 或 bs4 访问时

回答 1 投票 0

Python BeautifulSoup 网络抓取 Tripadvisor 查看评论

所以我是网络抓取新手,并尝试查看特定酒店的评论列表。 我最初尝试通过选择特定课程来查看特定评论,但我没有得到任何

回答 2 投票 0

从公共 S3 存储桶下载文件

我正在尝试从公共 s3 存储桶下载一些文件,作为 Google Analytics 课程的一部分。但是,我没有收到请求中返回的链接。我不确定我是否需要使用 boto3 还是

回答 3 投票 0

抓取帖子从库存耀斑生成 dom 元素

想知道是否有人可以为我指明如何从该网站抓取数据的正确方向。我理解数据是在页面完全加载后填写的,并且已经看到...

回答 1 投票 0

如何使用 R 包 rvest 正确执行 Xpath 英文文本搜索(目前似乎不起作用)?

学习 rvest 并希望用它来查询信息网站以确定它们是否包含(然后可以提取)某些信息。例如,在美国疾病预防控制中心主网站上: https://...

回答 1 投票 0

当我导航到 URL 并获取 TABLE 标记的内容时,它是空的

我正在尝试从这个网站 https://data.anbima.com.br/debentures/AALM11/agenda?page=1&size=100& 抓取数据,当我查看 DevTools > Elements 时,它有一个 TABLE 标签与...

回答 1 投票 0

从图表中获取数据点并关闭阴影根内的模态

我正在尝试抓取网站上的图表:https://www.xe.com/currencycharts/?from=SGD&to=USD&view=5Y 首先我尝试通过网络请求获取数据:如何从 dyna 获取数据...

回答 1 投票 0

如何在没有直接链接的情况下下载验证码图像

我正在尝试从命令行客户端访问 sci-hub.io,而不是击败其验证码系统。当您将 doi 发布到其首页时,它会返回格式为 http://moscow.sci-hub.io/abc123blah/... 的 pdf url

回答 2 投票 0

为什么 page.evaluate() 函数代码不在异步函数中执行? - 傀儡师

const getLastCarData = async (page, make) => { 让排序=升序; 让 url = `https://www.xxxxxxxxxxxx/xxxxxxxxx?make=${make}&postcode=XXXXXXX&sort=${sort}`; // 等待 page.goto(...

回答 1 投票 0

无法使用 BS4 从巴塞罗那足球俱乐部网站获取西甲积分表的正确数据

我正在尝试从 https://www.fcbarcelona.com/en/football/first-team/stands 网站提取积分表数据。我想提取当前表(24-25)的数据,但正在提取...

回答 2 投票 0

Python Web Scraping Selenium+BeautifulSoup with gspread 和 Google Sheets 大数据量问题

我正在制作一个网络抓取工具,可以从该页面抓取大约 1500 种产品的所有数据。 我正在提取商品名称,如果是畅销品,它是什么类型的衣服,怎么样

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.