web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

抓取地图最有效的方法是什么?

我正在尝试从https://mapa.targeo.pl/20.878884999999993,50.805207372713255,21?data=eyJmdHMiOnsicSI6IlRyYWZvc3RhY2phIn19中抓取数据 这是一个基于地图的网站(不使用谷歌地图)...

回答 1 投票 0

等待 Puppeteer 中的 xpath

在我用 Puppeteer 抓取的页面上,我有一个每个 li 具有相同 id 的列表。我正在尝试查找并单击此列表中具有特定文本的元素。我有以下代码: 等待...

回答 2 投票 0

目前在 Google Colab 中从 Flickr 下载视频最简单的方法是什么?

主要问题 几个月来,我一直在 Colab 中使用 Selenium 从 Flickr 下载视频。然而,大约一周前,我的代码停止工作。 它开始收到 502 Bad Gate...

回答 1 投票 0

更新 - 如何与我无法使用 python-selenium 获得的按钮进行交互?

新版本 我想浏览此链接中显示的条款和条件弹出消息,无论是单击“同意”按钮还是“X”按钮关闭窗口,请使用 python-

回答 4 投票 0

无法删除抓取数据上的标头

我有以下代码可以抓取此网站:https://www.hhs.gov/hipaa/for-professionals/compliance-enforcement/agreements/index.html 它会刮掉大约四分之一的链接和标题......

回答 1 投票 0

Linux 上的浏览器 headful 模式用于网页抓取

https://swappie.com/en/iphone/ 如果我们在 headful 模式下使用代理和浏览器(在 Selenium 和 Chromium 中都是 Chrome headless),我们就能成功绕过 Cloudflare 保护页面 在剧作家...

回答 1 投票 0

无法解决Python抓取代码问题

我正在使用 python/bs 来抓取此网站:https://www.hhs.gov/hipaa/for-professionals/compliance-enforcement/agreements/index.html 有两个令人烦恼的问题我无法解决: 它总是包括...

回答 2 投票 0

我正在尝试使用selenium进行网页抓取,但我无法提取我需要的所有相关信息

我是 Selenium 的新手,正在尝试提取页面上的信息。但是我无法提取我需要的所有相关信息。 下面是我的代码示例: 导入时间 来自硒进口

回答 2 投票 0

错误:NoneType'对象没有属性'find_all'

我有一些基本的代码用于从页面中提取数据,问题是一周前它停止工作,我收到错误“NoneType”对象没有属性“find_all”,也许有些东西有

回答 1 投票 0

使用谷歌应用程序脚本抓取表格

我很想从这个网站获取数据:https://finviz.com/screener.ashx?v=141&f=sh_avgvol_o500,sh_curvol_o2000,sh_price_u50&o=-volume 我想刮掉整个桌子。我尝试使用...

回答 2 投票 0

使用动态 wdtNonce 参数抓取网站

我在网页抓取方面几乎是自学的,而且我对网页的内部工作原理并没有真正深入的了解。 然而,我已经能够抓取我接触过的所有网站。

回答 1 投票 0

如何使用 python-selenium 与没有引用标记的 iframe 进行交互?

我想点击此消息上的“同意”按钮(我认为该消息是一个 iframe),以获取一些数据。 我遇到的第一个问题是我真的不知道我在处理什么......

回答 1 投票 0

使用 Python 中的网页抓取比较两个在线超市的价格

我正在开发一个程序,使用Python比较两个在线超市的类似产品的价格。我有两个代表每个供应商的产品页面的 URL,我需要提取 和

回答 1 投票 0

如何在Scrapy中访问子类?

所以我试图抓取以下页面:https://www.inmuebles24.com/departamentos-en-renta-en-orizaba.html。我想访问 posts-container 的子级以及其中的信息。 我

回答 1 投票 0

如何处理python中的ElementClickInterceptedException错误

我正在运行以下代码,使用 selenium 在 python 中抓取网站: def click_and_wait_for_additional_info(elem): # 单击商店元素导航到其单独页面 ...

回答 1 投票 0

抓取网址会导致“正在加载...”内容

我正在尝试读取 python 3.8 中的 url,但 html 内容仅显示以“正在加载...”结尾的内容 从 urllib.request 导入 urlopen 链接='https://opencorporates.com/companies/us_fl/

回答 1 投票 0

网页抓取过程中有些div没有出现

我是网络抓取新手,我尝试从这个网站抓取内容:INFOBANJIR JPS SELANGOR 这是我正在尝试抓取的内容: 在线降雨量数据(毫米) 这是我的代码: 来自 BS4 ...

回答 3 投票 0

如何使用 python 从有下载按钮的网页下载 csv?

我正在尝试编写一个Python函数,每月一次从该网页下载/获取csv https://www.cia.gov/the-world-factbook/references/country-data-codes/ 不过我只能下载...

回答 1 投票 0

检测并显示网页的更改

我正在尝试跟踪几个 URL,以了解它们何时进行更改,例如添加新文章,以及让脚本成为一个持续运行的程序,该程序将打印一条表示某些内容已更改的消息,...

回答 1 投票 0

Selenium 网页抓取元素

我正在尝试使用 Selenium (Python) 从具有以下结构的网站进行网页抓取(我对 html 进行了匿名化),但 GET 部分不起作用。 我想检索以下内容

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.