web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何在网站的 HTML/JavaScript 中查找和解码 URL 编码字符串以从 OddsPortal 抓取实时赔率?

我正在开展一个项目,从 OddsPortal 获取单场比赛的实时赔率。 https://www.oddsportal.com/inplay-odds/live-now/football/ 基于这个有用的指南 https://github.com/jckkrr/

回答 1 投票 0

网页抓取 Google Scholar 输出的链接比预期多,而且似乎无法过滤它们

我对Python总体来说还是个新手(大家好)。我正在尝试对 Google Scholar 进行网络抓取,到目前为止,进展相当顺利(有很多令人头疼的问题,但我正在实现目标)。我现在的问题是

回答 1 投票 0

你如何阅读cheerio的回复?

运行以下命令后,我在弄清楚如何阅读cheerio的响应时遇到了一些困难: const axios = require('axios') const Cheerio = require('cheerio') axios.get('https://bulbape...

回答 1 投票 0

使用发布请求从交互式经纪人获取股票代码

大家好,由于某种原因,交互式经纪人无法轻松地从其网站获取股票行情。我目前使用正常的请求查询通过他们的交换页面获取它们。然而,这是

回答 1 投票 0

Vinted 的 Datadome 验证码

我正在使用 Vinted Captchas API 端点 (https://www.vinted.it/api/v2/captchas)。 我发送了一个与 Chrome 开发工具具有相同正文的请求: {"entity_type":"登录","有效负载&

回答 1 投票 0

在 Python Selenium 中从 Youtube 频道获取视频链接

我正在Python中使用Selenium从Youtube频道的网站上抓取视频。下面是一组代码。行视频 = driver.find_elements(By.CLASS_NAME, 'style-scope ytd-grid-video-rendere...

回答 3 投票 0

如何创建一个应用程序来登录另一个没有 API 的网站

我需要创建一个应用程序,它使用我的凭据登录到一个网站(用户名/密码),但该网站没有 API 或身份验证协议(自 1998 年以来就没有更新过,但我需要...

回答 1 投票 0

在没有官方 API 可用的情况下以编程方式提交单词

当我访问此页面并输入一个单词时,我得到了预期的输出。 https://sanskrit.uohyd.ac.in/scl/ 工具 - (Sandhi-Splitter)选项 示例文本: योगेश्वरश्च 正确输出: [योगईश्वरःच] 我试过了...

回答 1 投票 0

动态网站抓取的 Pandas 数据集

这个问题与我之前的问题有关,所以在这里我假设我能够从esco打开此网页中的所有“plus sigs”。 一旦我展开了加号

回答 1 投票 0

使用 python 和 beautifulsoup 进行网站表抓取返回“none”或空

我试图通过一个简单的请求从该表中抓取数据,但在尝试使用表类后,它返回“none”: table = soup.find("table", class_ = "hp") 并尝试...

回答 1 投票 0

减少代码完成抓取所需的时间

我想减少代码完成抓取页面所需的时间,我正在使用硒。 我在这个抓取项目中使用了 Scrapy,但 JavaScript 隐藏了 Scrapy 中的电子邮件元素。 斯克...

回答 1 投票 0

WebClient 在尝试使用 DownloadFile() 时返回 403

我正在启动网络抓取器,想要抓取一些我可能会使用一次的东西。 作为一个例子,我想抓取这个图像(https://thebarchive.com/b/full_image/1707085883033680.jpg) 使用 WC 下载文件

回答 1 投票 0

如何在时间范围内获得所有维基百科帐户?

我正在尝试复制这篇论文,其中使用了 2010 年 9 月 9 日至 2011 年 2 月 14 日之间制作的用户帐户的随机样本。我如何使用维基百科 API 来获取此数据? 我不能

回答 1 投票 0

使用 selenium 无头浏览器在无 GUI 环境中进行抓取

目前正在没有GUI的环境中测试我的项目,它是用python编写的,以便使用selenium包和无头浏览器从facebook市场上抓取数据,链接到该项目:...

回答 1 投票 0

网页抓取 - 执行“全部复制”而不是 HTML 解析

我需要有关如何在不进行正常 HTML 解析的情况下从网页捕获数据的建议。数据通过我无法看到的幕后脚本和服务器端方法呈现到屏幕上......

回答 1 投票 0

Python Selenium 自动重定向问题

我在抓取 https://www.mca.gov.in/content/mca/global/en/home.html 时遇到问题。 每当我尝试在 selenium 或未检测到的 chromedriver 中打开它时,它会自动重定向到其主页...

回答 1 投票 0

python中的Scrapycrawlspider发现错误“'str'对象没有属性'iter'”

我遇到了网络抓取错误,但我不明白。我把这个代码贴了3天多了。有人可以帮我指导这个问题吗? 这是我的错误消息 2024-03-15 14:01:18 [...

回答 1 投票 0

使用 A 标签从 Wikipedia 上的 Div 文本中从链接中抓取到列表 DataFrame BeautifulSoup

我正处于编码的初级阶段...尝试使用“a”标签从 div 中的歌曲链接中抓取文本。然而,我只能得到alp中每个字母的第一首歌......

回答 1 投票 0

从网站抓取并输出被截断

我正在尝试从此网址中抓取作者:https://doi.org/10.1155/2021/2122095 它只抓取了 3 个作者,第四个在输出中被截断为椭圆形。 这里是...

回答 1 投票 0

使用 python 从具有源自原始链接的多个链接的站点中抓取数据的最佳方法是什么?

在我下面列出的示例中,它是弗吉尼亚理工大学所有校友关系章节的页面。我想深入了解校友关系的每一章并创建一个 CSV 文件......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.