web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用 hCaptch + Cloud Flare 保护绕过网站

有人知道如何在受云耀斑保护的网站上绕过 hCaptcha 吗? 我到处搜索但找不到任何解决方案(其实如果有办法的话,云耀员工

回答 1 投票 0

使用Selenium在iframe中定位元素

使用本网站: (https://buyee.jp/mercari/search?keyword=seiko%20S-212&status=on_sale) 或查看下面的 html: 包含感兴趣元素的 HTML 我正在尝试找到具有以下值的元素:...

回答 1 投票 0

使用Selenium定位元素

使用本网站: (https://buyee.jp/mercari/search?keyword=seiko%20S-212&status=on_sale) 或查看下面的 html: 包含感兴趣元素的 HTML 我正在尝试找到具有以下值的元素:...

回答 1 投票 0

用硒和 BS4 进行刮擦

我正在尝试从这个网站上删除一张桌子作为练习 - https://stats.paj.gr.jp/en/pub/current_en_n2.html 这里的问题是,我无法打印完整的表格。这仅返回来自...的 1 个单元格

回答 1 投票 0

Selenium 调试:元素在 (X,Y) 点不可单击

我尝试通过 Selenium 抓取这个网站。 我想单击“下一页”按钮,为此我这样做: driver.find_element_by_class_name('pagination-r').click() 它适用于许多页面,但不适用于...

回答 8 投票 0

将星期名称更改为日期

我正在抓取一个活动网站(活动名称、日期和时间)。我在 excel 中得到的输出如下: 我想将日期名称更改为实际日期,例如星期五应该是 12.03....

回答 1 投票 0

Python Selenium:如何打开已登录的网页

我知道以前有人问过这个问题,但我已经浏览了无数的帖子,但仍然无法开始工作。 我正在尝试使用现有的 chrome 配置文件/用户数据打开网页,以避免...

回答 1 投票 0

Python tableauscraper 问题

我用来从 Tableu 仪表板检索数据的抓取工具坏了。现在,当我尝试抓取任何仪表板时,我收到相同的错误: -------------------------------------------------- ---------------...

回答 2 投票 0

如何使用 playwright 单击元素的特定位置?

我正在从动态网站抓取数据,因此需要执行一些操作才能将数据加载到 DOM 中。有一个水平滚动条需要单击,到目前为止,我可以执行此操作

回答 1 投票 0

抓取特定类别的分层网站

我正在尝试抓取以下页面:“https://esco.ec.europa.eu/en/classification/skill_main”。我特别想点击 S 技能下的所有加号按钮,除非有...

回答 1 投票 0

漂亮的汤我=只返回无[关闭]

我试图从此链接中提取信息:https://wuzzuf.net/jobs/p/EVUpYcDnxix7-Odoo-Developer-Yodawy-Med-Giza-Egypt?o=2&l=sp&t=sj&a=search-v3| HPB 试图获得工作头衔和其他

回答 1 投票 0

如何检测亚马逊站点地图

我正在尝试从 amazon.com 抓取一些产品,但我在 robots.txt 中找不到它 我试过 amazon.com/sitemap.xml amazon.com/sitemap.xml.gz amazon.com/sitemap1.xml.gz amazon.com/sitema...

回答 4 投票 0

option.add_argument("--headless=new") 在废弃 Kayak 时不适用于 Chrome 122

Chrome 122.0.6261.95 Chrome 驱动程序 122.0.6261.94 Python 3.8.3 如果我注释掉 option.add_argument("--headless=new") ,它将 print(len(elements)) 打印 2。否则,无法打印

回答 1 投票 0

寻找网站的url查询参数

我正在尝试使用这个 search.py 代码库使用 url 和 search_url 来抓取该网站。它以 json 格式生成结果 - 它是如何使用开发工具实现的? 我可以看到一个请求...

回答 1 投票 0

AttributeError:“NoneType”对象没有属性“find_all”,仅适用于 Flask

main.py 从烧瓶导入烧瓶,渲染模板,请求,重定向 从废料导入废料、Scrap_web3、Scrap_remoteok app = Flask("作业抓取器") 分贝={} @app.route("/") 定义

回答 1 投票 0

如何获取并点击动态加载网站的URL?

我想从链接中抓取马拉松结果(称为页面A):https://www.marathon.tokyo/2023/result/index.php 假设我在第一个选项中选择“马拉松男子”,然后搜索,...

回答 1 投票 0

使用 Google Sheets 和/或 App Script 从使用 Javascript 的网站上抓取数据

我想通过在 WorldCat ( https://search.worldcat.org/ ) 中搜索书名来收集有关图书的数据。例如,如果我的输入是“Remarkable Creatures”,我希望它输出: 作者...

回答 1 投票 0

500 内部服务器错误 file_get_contents

如果我尝试阅读网站的源代码,有时会得到以下信息(显示的示例 URL): 警告:file_get_contents(http://www.iwantoneofthose.com/gift-novelty/golf-ball-finding-glasses/10602617.html) [

回答 3 投票 0

RSelenium - 挂在网站上后无法执行操作

我正在使用 RSelenium 进行网页抓取。在网站上挂了几分钟后,我收到以下错误消息: “_.Call 中的错误(R_curl_fetch_memory,enc2utf8(url),句柄,非阻塞):

回答 1 投票 0

找不到下载的URL(使用R进行网页抓取)

我只是想用R来抓取网页并自动下载文件。 https://www.maklarstatistik.se/omrade/riket/stockholms-lan/stockholm/#/bostadsratter/arshistorik-prisutveckling 如果你...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.