web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

从 Reddit 诞生到现在的子版块进行抓取

我目前正在从 Reddit 子版块中检索数据,旨在捕获自该子版块创建以来的所有帖子。但是,我遇到了限制,只能访问最新的信息...

回答 1 投票 0

如何从维基百科的摘要部分/链接列表中抓取链接?

我正在尝试使用Python从维基百科上的“拜仁城镇和Gemeinden列表”中抓取大型维基百科页面的所有链接。问题是我不知道如何

回答 2 投票 0

如何从嵌套div中抓取图像和描述元数据?

我尝试从欧洲航天局图像库网站提取图像和描述元数据: https://www.esa.int/ESA_Multimedia/Sets/Earth_from_Space_image_collection/(result_type)/i...

回答 1 投票 0

尝试使用selenium抓取佳能网页

其中一个类别有“加载更多”按钮,可加载相机。我需要编写滚动到“加载更多”按钮并单击它的函数 网址:https://www.usa.canon.com/shop/cameras/mirrorless-cameras...

回答 1 投票 0

如何使用 beautifulsoup python 提取href

下面的代码可以提取网站上的所有链接, 从 bs4 导入 BeautifulSoup 导入请求 r=requests.get("https://www.drishtiias.com/current-affairs-news-analysis-editorials") 汤=

回答 1 投票 0

使用 Python 抓取 Newegg 网络

我正在深入研究使用 Beautiful Soup (BS4) 从 Newegg 中提取 GPU 价格的网络抓取,但作为一个完全的新手,我正在努力将网页内容解析为可读的 HTML 格式。当我

回答 1 投票 0

网页抓取 <td>标签问题 - Python 3 With Lxml

使用 lxml 库在 python 中进行网页抓取。我的代码当前输出一个空列表: 从 lxml 导入 html 导入请求 page = requests.get('www.example.com') 树 = html.fromstring(page.content)

回答 1 投票 0

如何专门自动抓取 wikipedia-info 框并使用 python 打印更多(其他)wiki 页面的数据?

如何专门自动抓取维基百科信息框并使用Python打印任何维基页面的数据?我的任务是自动打印维基百科信息框数据。这就是说我发现...

回答 1 投票 0

requests.get 不适用于网站的某一部分,但适用于其他部分

正如我在标题中所述,当尝试抓取 jlptsensei.com 做笔记时,我在网站的某些页面中遇到了问题,据我所知,这与页面没有什么不同。 ..

回答 1 投票 0

排查从investing.com 网络抓取每月英国债券数据中的VBA 错误

我正在尝试从investing.com 上抓取1 个月至50 年期间每次债券增量的英国债券月度数据。这些可以在 https://uk.investing.com/rates-bonds/uk-5-year-bond-yield-

回答 1 投票 0

如何从不同长度的HTML表格中抓取准确的字段?

我正在尝试创建一个脚本来根据标题从表中抓取一些字段。问题是所有表及其表头的长度并不相同。 这是 HTML

回答 1 投票 0

无法修改脚本的逻辑以从不同长度的表中抓取准确的字段

我正在尝试创建一个脚本来根据标题从表中抓取一些字段。问题是所有表及其表头的长度并不相同。这是 HTML

回答 1 投票 0

网络从 FBRef 抓取第二桌玩家统计数据?

希望在这里得到帮助。我正在尝试在 MLS 的 FB Ref 上抓取第二个球员进球和射门创造统计数据表,但我的脚本正在引入第一个球队统计数据表...

回答 1 投票 0

如何使用 Java 在 Selenium WebDriver 中查找整个网站的损坏图像?

我想找到整个网站的损坏图像。我只能对单个页面执行此操作,例如:主页。 我们如何为整个网站做到这一点?

回答 5 投票 0

无法使用snscrape

我正在尝试使用 snscrape 从 X 中提取最新的推文,但是这段代码对我不起作用。 AttributeError:“FileFinder”对象没有属性“find_module” 导入 snscrape.modules.twit...

回答 1 投票 0

获取 Instagram ID 的 JavaScript 函数

我有一个带有事件按钮的JavaScript函数来获取instagram用户的ID,但问题是它只会获取第一个用户的ID,如果我尝试转到另一个配置文件,它会给出.. .

回答 1 投票 0

Selenium 点击按钮进行网页抓取

我正在尝试使用 selenium 来抓取数据,这需要您在每一轮上推送以显示更多数据,但我对 selenium 非常缺乏经验,并且无法找到要抓取的元素

回答 1 投票 0

在python中使用selenium获取所有href链接

我正在Python中练习Selenium,我想使用Selenium获取网页上的所有链接。 例如,我想要 http:// 上所有

回答 11 投票 0

在 Node.js 上的 Puppeteer 中触发侦听器之前获取正确的重定向

目前,我正在学习 Node.js 和 Puppeteer 库以进行抓取。我有一个关于重定向的问题。我遇到了这样的场景:我想抓取 URL 'https://www.facebook...

回答 1 投票 0

如何使用 R 抓取 google 财经,其中多个页面的页面 url 不会更改?

我想用R网络抓取不同年份的股票财务表。但是,我可以获得去年的财务表,该表显示为默认值。但我也想从

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.