web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用 GET 请求通过 API 进行网页抓取,“验证错误”

我正在尝试抓取此网站:https://www.dysportusa.com/find-a-specialist 有一个使用 GET 请求的 API: https://www.dysportusa.com/api/find-a-specialist?latitude=32.79742543951647&long...

回答 1 投票 0

PHP 脚本在不同点意外中途终止,没有任何错误

我正在尝试构建一个网络抓取器来获取 XML 文档,使用 DOMDocument 方法对其执行各种质量检查功能,然后将结果输出到文件。 95% 的时间都有效,...

回答 1 投票 0

使用 R 中的 rvest 从 SER-SID.org 抓取动态内容时遇到问题

我无法从 https://ser-sid.org/(种子性状数据库)中抓取数据。我已经使用以下命令成功检索了物种潜在属性及其 URL 的表...

回答 1 投票 0

在 LinkedIn 上获取网络抓取工作机会时遇到的困难

我一段时间以来一直在尝试抓取 LinkedIn 的工作机会部分,但无济于事。顺便说一句,我知道该网站有自己的 API,但我想用 Beautiful Soup 来实现,因为我学到了...

回答 2 投票 0

R (rvest) 和 SelectorGadget 中的网页抓取问题。错误字符(0)

我正在尝试使用 rvest 和 SelectorGadget 从 https://www.kaggle.com/datasets/jacouchs/marketing-budget-and-actual-sales-dataset 中抓取数据。

回答 1 投票 0

如何使用 selenium 循环浏览网站页面

我正在尝试抓取此页面:https://www.lavoro.gov.it/Pagine/Cerca-nel-sito?search=big+data 正如您在页面底部看到的那样,有页数和带有箭头的图标...

回答 1 投票 0

如何在Python中使用BeautifulSoup4抓取下一个兄弟数据?

我正在尝试通过以下 URL 使用以下 Python 脚本拉取名为“Basic EPS”的行:https://finance.yahoo.com/quote/AAPL/financials #!/usr/bin/env python3 导入 os、pandas 作为 pd 来自操作系统

回答 1 投票 0

无法使用Python 3.11.6使用BeautifulSoup4提取下一个兄弟数据

我正在尝试通过以下 URL 使用以下 Python 脚本拉取名为“Basic EPS”的行:https://finance.yahoo.com/quote/AAPL/financials #!/usr/bin/env python3 导入 os、pandas 作为 pd 来自操作系统

回答 1 投票 0

通过 Chrome 中的 Inspect 操作查找元素 ID 或名称

我需要在网站中找到输入文本的元素ID或名称,然后单击按钮返回一些值。但是,单击“检查”选项卡后,我在代码中看不到元素 ID 或名称...

回答 1 投票 0

错误的输出正则表达式

重新导入 导入 urllib3 url = 'https://bazaartracker.com/search?query=rough+ruby' def extract_dynamic_numbers_from_url(url): http = urllib3.PoolManager() 响应 = http.request('GET', url...

回答 1 投票 0

网页抓取职业橄榄球参考

我正在尝试从以下页面抓取防守表:https://www.pro-football-reference.com/boxscores/202402110kan.htm 请注意,此页面上有多个表格,因此您需要滚动

回答 1 投票 0

如何使用 selenium 滚动浏览并打印网站的结果。我正在尝试抓取一个网站,但它没有打印所有结果[重复]

我正在使用selenium 扫描booking.com,它有超过600 个结果,但selenium 只扫描了51 个结果。我不知道我做错了什么。这是我的代码。 从硒导入网络驱动程序 从se...

回答 1 投票 0

无法在 selenium 无头模式下运行扩展?

当我运行脚本扩展不起作用时,当我检查错误屏幕截图时,有一些添加。 从 selenium.webdriver.chrome.options 导入选项 来自 selenium.webdriver.chrome.service 我...

回答 1 投票 0

尝试更改网站中的内部文本时出现对象未设置错误

我正在尝试用一个格式化/美化代码的网站做一个简单的宏, 1-在左侧输入框中插入文本 2-单击“美化”按钮 3- 将输出框的结果复制到右侧...

回答 1 投票 0

关于梦幻超级联赛 API 的问题?

我最近开始学习/使用 API,并且一直被教导要遵循文档。 我一直在尝试抓取以下页面以获取有关玩家的所有统计数据:http...

回答 1 投票 0

抓取带有嵌入式 Google 地图的网站

我正在看这个网站:https://silkroadmed.com/hospitals/ 有没有办法刮掉谷歌地图上的红色图钉?当您单击图钉时,您会获得姓名、地址和电话号码。理想...

回答 1 投票 0

HttpBrowser 请求返回 403

我正在尝试使用 HttpBrowser 向网站发出请求以抓取一些数据。这是网站:https://www.ligamagic.com.br/?view=dks/deck&id=6934215 我已经开发了代码...

回答 1 投票 0

当某个单元格中的值第一次=X时发送电子邮件

我目前正在使用 Google Sheets 中的 importhtml 函数从几个不同的网站抓取值,然后将抓取的数据与我自己网站的数据进行比较。我网站上的价值观是...

回答 1 投票 0

Cheerio 无法读取元素的“href”属性,即使它存在于源代码中

我正在尝试为PS5游戏的二手网站创建一个爬虫。为此,我使用 Cheerio 来解析结果列表。在某些情况下它能够正确读取 URL,在其他情况下它

回答 1 投票 0

AttributeError:模块“OpenSSL.SSL”没有属性“SSLv3_METHOD”

使用定义的 url 运行 scrapy shell 后,我收到属性错误,显示以下错误: AttributeError:模块“OpenSSL.SSL”没有属性“SSLv3_METHOD” scrapy外壳...

回答 6 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.