web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

在Python中抓取网页时表格不出现

我发生了一件有趣的事情,但我不知道发生了什么。我正在尝试从以下位置进行网络抓取: https://www.pro-football-reference.com/teams/kan/2023_roster.htm 我想要的桌子...

回答 0 投票 0

通过 selenium 进行日志记录是否被 twitter 屏蔽了?

即使使用 selenium 具有有效凭据,也无法登录 Twitter。 Elements 接受凭据并验证它们,但登录后不会重定向到主页。 登录详细信息和主要...

回答 1 投票 0

为什么 find_elements(By.CLASS_NAME) 在 selenium、python 中不起作用?

我正在开发一个项目,从 Reddit 上抓取故事,但我遇到了一个问题。对于每个 Reddit 子版块,您单击的按钮将带您前往帖子,其中包含 HTML: 我正在开发一个项目,从 Reddit 上抓取故事,但遇到了问题。对于每个 Reddit 子版块,您单击的按钮将带您前往帖子,其中包含 HTML: <a class="absolute inset-0" slot="full-post-link" href="*the link*" target="_self"> 我尝试测试的具体代码是: <a class="absolute inset-0" slot="full-post-link" href="/r/ProRevenge/comments/cvb3b6/coworker_tried_to_get_me_fired_over_breast/" target="_self"> <faceplate-screen-reader-content> #shadow-root (open) <!----> <slot> <#text> </slot> Coworker tried to get me fired over breast implants, so I pulled a reverse uno card. </faceplate-screen-reader-content> </a> 我想检索此链接并转到它,并已尝试过: links = driver.find_elements(By.CLASS_NAME, 'absolute inset-0') 但是当它运行时,我只是得到一个空数组。 为了澄清起见,我确实尝试使用 By.XPATH 查找并单击按钮,效果很好。唯一的事情是我知道使用 XPATH 确实是不好的做法,我宁愿通过 By.CLASS_NAME 找到按钮。以下代码给了我我所需要的: storyBtn = driver.find_element(By.XPATH, '/html/body/shreddit-app/dsa-transparency-modal-provider/div/div[1]/div[2]/main/div[2]/article[1]/shreddit-post/a[1]') storyBtn.click() url = str(driver.current_url) 我使用的链接是:https://www.reddit.com/r/ProRevenge/top/?t=all 有谁知道怎么回事吗? <a class="absolute inset-0" slot="full-post-link" href="*the link*" target="_self"> 可以看到class属性的值包含空格,这意味着它有多个值。 在本例中,它有两个值,absolute 和 inset-0,而不是 absolute inset-0。 By.CLASS_NAME 仅接受单个类名。 By.CSS_SELECTOR甚至接受多个类别。 你可以试试 links = driver.find_elements(By.CSS_SELECTOR, 'a.absolute.inset-0')

回答 1 投票 0

如何通过谷歌翻译翻译图像中的文本而不提取它? Python 3.X

我最近尝试开发一个程序来翻译图像中的文本。这无需提取文本,因为该程序适用于漫画! 我尝试使用 Yandex 等不同网站来...

回答 3 投票 0

与 BeautifulSoup 一起从公告牌热门 100 名艺术家单曲历史中抓取

我正在尝试抓取艺术家广告牌页面上的所有信息,因为这些信息与他们的单曲和他们的表演有关。我正在尝试重新设计我在其他地方看到的解决方案..它的工作效率很高...

回答 1 投票 0

x从特定表中提取值的路径?

前段时间我成功制作了一个数据库,其中包含特定国家/地区销售的汽车数量。我从中提取数据的网站已更改,多个国家/地区的数据现在混合在同一页面上。

回答 1 投票 0

网络定价抓取工具,创建 URL 循环

我正在尝试创建一个网络抓取工具,从 B 列中的 URL 获取定价。 我想要一个循环,以便将 HTML 中的价格提取到 C 列。 我的代码给出了“自动化错误”。 我的

回答 1 投票 0

scrapy,selenium 不会返回页面中的所有元素

我想减少代码完成抓取页面所需的时间,我正在使用硒。 我在这个抓取项目中使用了 Scrapy,但 JavaScript 隐藏了 Scrapy 中的电子邮件元素。 斯克...

回答 2 投票 0

如何在 Windows 上使用 BeautifulSoup 创建 Python 脚本来下载 WIkimedia Commons 文件夹中每张图片的最高分辨率?

所以,我是古斯塔夫·多雷(Gustave Doré)的忠实粉丝,我想从组织整齐的维基共享资源文件夹中下载他的所有版画。 因此,给定一个 Wikimedia Commons 文件夹,我需要下载...

回答 1 投票 0

如何在网站的 HTML/JavaScript 中查找和解码 URL 编码字符串以从 OddsPortal 抓取实时赔率?

我正在开展一个项目,从 OddsPortal 获取单场比赛的实时赔率。 https://www.oddsportal.com/inplay-odds/live-now/football/ 基于这个有用的指南 https://github.com/jckkrr/

回答 1 投票 0

网页抓取 Google Scholar 输出的链接比预期多,而且似乎无法过滤它们

我对Python总体来说还是个新手(大家好)。我正在尝试对 Google Scholar 进行网络抓取,到目前为止,进展相当顺利(有很多令人头疼的问题,但我正在实现目标)。我现在的问题是

回答 1 投票 0

你如何阅读cheerio的回复?

运行以下命令后,我在弄清楚如何阅读cheerio的响应时遇到了一些困难: const axios = require('axios') const Cheerio = require('cheerio') axios.get('https://bulbape...

回答 1 投票 0

使用发布请求从交互式经纪人获取股票代码

大家好,由于某种原因,交互式经纪人无法轻松地从其网站获取股票行情。我目前使用正常的请求查询通过他们的交换页面获取它们。然而,这是

回答 1 投票 0

Vinted 的 Datadome 验证码

我正在使用 Vinted Captchas API 端点 (https://www.vinted.it/api/v2/captchas)。 我发送了一个与 Chrome 开发工具具有相同正文的请求: {"entity_type":"登录","有效负载&

回答 1 投票 0

在 Python Selenium 中从 Youtube 频道获取视频链接

我正在Python中使用Selenium从Youtube频道的网站上抓取视频。下面是一组代码。行视频 = driver.find_elements(By.CLASS_NAME, 'style-scope ytd-grid-video-rendere...

回答 3 投票 0

如何创建一个应用程序来登录另一个没有 API 的网站

我需要创建一个应用程序,它使用我的凭据登录到一个网站(用户名/密码),但该网站没有 API 或身份验证协议(自 1998 年以来就没有更新过,但我需要...

回答 1 投票 0

在没有官方 API 可用的情况下以编程方式提交单词

当我访问此页面并输入一个单词时,我得到了预期的输出。 https://sanskrit.uohyd.ac.in/scl/ 工具 - (Sandhi-Splitter)选项 示例文本: योगेश्वरश्च 正确输出: [योगईश्वरःच] 我试过了...

回答 1 投票 0

动态网站抓取的 Pandas 数据集

这个问题与我之前的问题有关,所以在这里我假设我能够从esco打开此网页中的所有“plus sigs”。 一旦我展开了加号

回答 1 投票 0

使用 python 和 beautifulsoup 进行网站表抓取返回“none”或空

我试图通过一个简单的请求从该表中抓取数据,但在尝试使用表类后,它返回“none”: table = soup.find("table", class_ = "hp") 并尝试...

回答 1 投票 0

减少代码完成抓取所需的时间

我想减少代码完成抓取页面所需的时间,我正在使用硒。 我在这个抓取项目中使用了 Scrapy,但 JavaScript 隐藏了 Scrapy 中的电子邮件元素。 斯克...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.