web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何使用selenium绕过滑块验证码来解决谜题?(Python)

在上述网站上,搜索令牌后,会出现滑块验证码。 验证码示例: 我想绕过滑块验证码。我参考了Unabl中的第一个解决方案...

回答 1 投票 0

美丽的汤不在外跨内定位内跨

我正在尝试为 Udemy 课程构建一个价格跟踪器,就像一个个人项目一样,因为我经常检查该网站是否有我想购买的课程的销售情况。我正在尝试使用美丽汤来抢夺...

回答 1 投票 0

在Python中使用Pandas使用.loc方法时出现KeyError

我有一个简单的项目,是使用从 Excel 工作表文件(xlsx 文件)收集的信息创建的。 这是我正在处理的信息 当我运行 df.iloc[1] 时 输出...

回答 1 投票 0

使用 R 中的正则表达式将一列分成多个列

我废弃了一个网络,现在需要清理“服务”列,它是一个字符串。 fl_data数据集中的service列,可以看到有Testing Servi等多种服务...

回答 1 投票 0

从雅虎财经废弃大量股票数据时出现问题

我想取消雅虎财经的“关键统计”选项卡。 HTML 页面包含我使用 Beautiful Soup 废弃的多个表。每个表仅包含 2 列,而我设法...

回答 1 投票 0

BeatuifulSoup 迭代超过 10,000 个页面并获取数据,解析:欧洲志愿服务:一个从 EU-Site 收集机会的小型抓取工具

我正在寻找欧洲志愿服务的公开列表:我不需要完整的地址 - 但需要名称和网站。我想到数据... XML、CSV ... 具有这些字段:名称、国家/地区 - ...

回答 1 投票 0

如何从维基百科抓取列表?

我面临着与如何从维基百科中抓取列表并传输到数据框提出的问题类似的问题。我想从列表“现代战争少于 25...

回答 1 投票 0

BeatuifulSoup 从欧洲志愿服务获取数据并解析:一个从 EU-Site 收集机会的小型抓取工具

正在寻找欧洲志愿服务的公开列表:我不需要完整的地址 - 但需要名称和网站。我想到数据... XML、CSV ... 具有这些字段:名称、国家/地区 - 一个...

回答 1 投票 0

我想抓取一个名字,但得到的输出是NONE

我正在抓取一个网站,想要提取名称和价格,但输出结果为“无”。我不知道我在这里做错了什么,因为我期待价格和名称的推出。

回答 1 投票 0

从页面检索元素

我想在 https://echa.europa.eu/brief-profile/-/briefprofile/100.000.685 上检索化学品的 IUPAC 名称 我希望在此示例中打印结果返回 Benzene。 下面的代码...

回答 1 投票 0

抓取惰性动态加载页面

我需要抓取分类,但页面正在动态加载。当您向下滚动页面时,它会加载新元素。我使 autoScroll 功能,它增加了项目的数量。当我延迟或

回答 1 投票 0

网络抓取 Twitter 帖子

导入请求 从 bs4 导入 BeautifulSoup url = 'https://twitter.com/GeniResearch/status/1755137950403219646' 响应 = requests.get(url) 打印(响应) 汤 = BeautifulSoup(response.conten...

回答 1 投票 0

从列表中分离数据的最佳方式

基于一个包含统计信息的网站,我实现了基本的网页抓取代码,如下: 进口再 导入请求 从 bs4 导入 BeautifulSoup 内容 = requests.g...

回答 1 投票 0

从列表中分离数据的最佳方式

基于一个包含统计信息的网站,我实现了基本的网页抓取代码,如下: 进口再 导入请求 从 bs4 导入 BeautifulSoup 内容=请求...

回答 1 投票 0

Selenium 抓取不断返回 ValueError:以 10 为基数的 int() 的无效文字:''

当尝试抓取网站时,他们无法在我的页面索引变量中找到文本。用于分页的 len() 显示了正确的数字,所以我知道它找到了我想要的元素。只需 n...

回答 1 投票 0

使用 Beautifulsoup 解析 HTML - Print 可以工作,但 Return 不行

为什么 print() 返回这些标签下的所有文本,而 return 却没有? 这是我正在使用的功能- def parse_html(数据): ls = [] htmlParse = BeautifulSoup(data, 'html.parser') ...

回答 1 投票 0

Python - 在浏览器上将 PDF 特定页面上的表格列读取为 NumPy 数组

任务 本 PDF 第 10 页有表 1。我想将“WHO World Standard*”列作为 NumPy 数组来阅读。 (失败)尝试 Tabula 引发 urllib.error.HTTPError: HTTP 错误...

回答 2 投票 0

如何使用selenium for aparat 像视频一样点击

我已经开始网络抓取。我想喜欢使用 selenium 和 python 的 https://www.aparat.com/v/T8gqi?playlist=1869949 的视频,但我的代码中存在问题,无法找到正确的

回答 1 投票 0

尝试将 json 数据作为多行文本嵌入到 json 数据列表中的键中,并将该列表保存为缩进良好的 json 文件

我有一个名为 mylist 的 json 数据列表,其中包含网站的数据。我想将站点的网络日志作为值附加到键值对的列表中。由于网络日志是一个大数据,我...

回答 2 投票 0

BeautifulSoup4 和 Pandas 返回空 DataFrame 列:更新:现在在 Google-Colab 上使用 Selenium

我正在寻找世界银行的公开名单 我不需要分支机构和完整地址,只需要名称和网站。我想到数据... XML、CSV ... 具有这些字段: 银行名称、国家/地区...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.