web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

在网页抓取时检测网页中的评论

我正在尝试网络抓取带有评论的网站,并且我得到了所有网站块 我需要从废弃的网页中提取用户的评论,我该怎么做? 我有两个可能的指示如何做到这一点:

回答 1 投票 0

初学者使用 selenium 和 python 编写从多个网页抓取链接、文本、图像的代码并存储在 Excel 中

这是我写的代码: 从硒导入网络驱动程序 将 pandas 导入为 pd 从 selenium.webdriver.support 导入预期条件作为 EC 从 selenium.webdriver.support.ui 导入

回答 1 投票 0

跟进使用VBA从网页表中提取值

今天早些时候,我问了以下问题:使用 VBA 从网页表中提取值。所有答案都为我提供了一种访问 HTML 对象内部数据的方法。 我想为另一个人做同样的事情

回答 1 投票 0

如何在Python中插入cookie以进行网页抓取?

我正在制作一个网络抓取工具,并将其托管在我的 Raspberry Pi B 上,但我需要抓取的网站需要 cookie 才能访问它。具体的 cookie 是 .ROBLOSECURITY。我已经在我们之前登录了...

回答 3 投票 0

如何从带有嵌套跨度的p标签中获取文本内容?

我正在使用 Scrapy 从网站获取一些数据,但在从具有以下结构的 HTML 部分获取文本内容时遇到一些问题: ... 我正在使用 Scrapy 从网站获取一些数据,但从具有此结构的 HTML 部分获取文本内容时遇到一些问题: <div class="price">     <p>         <span class="price-label">             Some label         </span>         Price value     </p> </div> 我的主要目标是获取字符串“价格值”,但正如您所看到的,它被放置在 <p> 标签内,并且在 <span> 标签关闭之后。 此位置使 response.css('.price p ::text').get() 指令返回空字符串,因为它尝试获取 <p> 和 <span> 标签之间的内容。我实现目标的唯一方法是使用字符串方法从 'response.css('.price p').get()` 中删除 <span> 标签,但我认为有一些更好的方法来获取内容。 "".join(response.css('.price p::text').getall()) 是众多可能的解决方案之一。

回答 1 投票 0

如何获取特定战网游戏的补丁描述、名称、发布数据和最终图像[已关闭]

我想获得特定战网游戏的最新补丁描述、名称、发布数据和图像,这可能吗?

回答 1 投票 0

为什么Beautiful Soup find_all没有找到页面中所有匹配的元素?

我想实现什么目标? 我正在尝试从此网页中抓取“玩家射击”表。更具体地说,我想从 stats_shooting 表中返回 tr 标签作为列表(w...

回答 1 投票 0

美汤find_all没有找到页面中所有匹配的元素

我想实现什么目标? 我正在尝试从此网页中抓取“玩家射击”表。更具体地说,我想从 stats_shooting 表中返回 tr 标签作为列表(w...

回答 1 投票 0

使用VBA从网页表中提取值

我需要从以下网站的表格中提取一些值:https://www.anbima.com.br/informacoes/indicadores/。 我尝试使用使用 VBA 从网页提取表中给出的解决方案...

回答 1 投票 0

我怎样才能从https://news.blizzard.com/en-us/diablo4获取json数据或者如果可能的话

可以从这个url获取json文件吗? https://news.blizzard.com/en-us/diablo4 我尝试进入 fetch 内部,但没有找到太多东西,我也尝试看看是否能找到任何东西......

回答 1 投票 0

如何使用Python从网站中提取url?

我正在为一个大学项目工作,我想使用网络抓取和文本挖掘来分析最受欢迎的电视节目的特征。 所以我尝试从每个电视节目中抓取网址...

回答 1 投票 0

将 Scrapfly Scraper 集成到 Azure Synapse Analytics 项目中

我目前正在开发一个名为“Azure-Social-Media-Analytics-Solution-Accelerator”的项目。该项目利用两个主要来源的数据:新闻网站和 Twitter。数据已收集并

回答 1 投票 0

HEETS 中的 IMPORTHTML 不再起作用了吗?

=QUERY(IMPORTHTML("https://www.naturalstattrick.com/playerteams.php?fromseason=20212022&thruseason=20232024&stype=2&sit=5v5&score=all&stdoi=std&rate=y&team=ALL&...

回答 1 投票 0

从网页抓取中提取文本

我正在尝试从网站获取文本 我的代码有效(有点) for (i in 1:no_urls) { this_url=urls_meetings[[i]] 页面=read_html(this_url) 文本=页面 |> html_elements("body") |&...

回答 1 投票 0

使用 XPATH text() 函数时遇到困难

我的目标是从页面获取价格文本。 当我使用 XPATH 时 //*[@id="module_product_price_1"]/div/div/span ,它只找到一项。但是,当我包含 text() 函数时 ...

回答 1 投票 0

要价的抓取类:检索不完整的要价值

这是我的问题。我正在尝试从币安网站检索各种值(价格)。我已经设法从“orderbook-list-container”中提取不同的类。然而,它并没有...

回答 1 投票 0

在 python 中抓取 rotowire.com 玩家数据

我正在尝试从此页面获取/抓取击球统计表: https://www.rotowire.com/baseball/player/cj-abrams-16042 进一步查看该页面,我认为所有表格可能都相同...

回答 1 投票 0

无法使用 2captcha API 绕过旋转验证码

我目前正在努力绕过 2captcha API 演示页面上的旋转验证码。我遇到的问题与集成方面无关;我已经弄清楚如何集成它了

回答 1 投票 0

尝试使用 Gemini 进行网页抓取

我决定使用Gemini API是因为我找到了一份工作。虽然一切都很顺利,但我有一个问题。当我向 Gemini AI 询问有关今天新闻的问题时,它不断地假设我们...

回答 1 投票 0

Pycharm、python、selenium 练习与报废问题

我是编码新手。这是什么意思?我该如何解决?这是我收到的错误: 行:1 字符:1 从硒导入网络驱动程序 此版本的

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.