web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用 Phyton 进行 Un Comtrade 网页抓取 [已关闭]

我刚开始使用Python进行网页抓取。我需要从以下 URL 中提取数据:https://comtradeplus.un.org/TradeFlow?Frequency=A&Flows=X&CommodityCodes=TOTAL&Partners=0&

回答 1 投票 0

由于等待评论加载而导致网页抓取超时

我想编写一个Python脚本,通过它我可以阅读谷歌地图上特定位置/商店的所有评论。我尝试对代码进行多次修改,但始终超时

回答 1 投票 0

使用 Python 从 ESPNCricInfo StatsGuru 中抓取 .csv 数据

请您建议如何从以下网址进行抓取: https://stats.espncricinfo.com/ci/engine/stats/index.html?class=1;filter=advanced;orderby=innings;size=200;spanmax1=07+Aug+2020;span...

回答 2 投票 0

从标题(h2,h3,表格)中提取层次信息与休息

在此网站 https://www.quebec.ca/agriculture-environnement-et-ressources-naturelles/faune/gestion-faune-habitats-fauniques/especes-fauniques-menacees-vulnerables/liste 上,有以下表格特...

回答 1 投票 0

在 R 中抓取多个页面

我正在尝试废弃该网站并从多个页面中提取内容。我每次都使用 while 循环来增加页码,但它不起作用。它所做的只是重复相同的内容...

回答 1 投票 0

在 R 中运行 java 脚本

我正在尝试使用 R 从网页运行 javascript。并在 R 中创建内部变量。我可以使用像 selenium 这样的网络驱动程序来做到这一点,但我想使用 R 内部的 javascript 引擎 v8 来做到这一点...

回答 2 投票 0

无法使用此代码从文章中提取信息

这段代码应该从不同的文章链接中提取标题和正文,但由于没有找到任何标题或文本,它只是跳过了网址 # 网页抓取和数据处理 对于范围内的 i(2, ws.

回答 1 投票 0

使用python和google API抓取google搜索结果并出现错误10060

我有一个包含一些关键字的 csv 文件。我想收集所有关键字的所有搜索结果。到目前为止,这段代码运行良好。 Python 出现错误 10060。我想知道我的 IP 是否受到限制?还有……

回答 1 投票 0

如何使用selenium绕过滑块验证码来解决谜题?(Python)

在上述网站上,搜索令牌后,会出现滑块验证码。 验证码示例: 我想绕过滑块验证码。我参考了Unabl中的第一个解决方案...

回答 1 投票 0

美丽的汤不在外跨内定位内跨

我正在尝试为 Udemy 课程构建一个价格跟踪器,就像一个个人项目一样,因为我经常检查该网站是否有我想购买的课程的销售情况。我正在尝试使用美丽汤来抢夺...

回答 1 投票 0

在Python中使用Pandas使用.loc方法时出现KeyError

我有一个简单的项目,是使用从 Excel 工作表文件(xlsx 文件)收集的信息创建的。 这是我正在处理的信息 当我运行 df.iloc[1] 时 输出...

回答 1 投票 0

使用 R 中的正则表达式将一列分成多个列

我废弃了一个网络,现在需要清理“服务”列,它是一个字符串。 fl_data数据集中的service列,可以看到有Testing Servi等多种服务...

回答 1 投票 0

从雅虎财经废弃大量股票数据时出现问题

我想取消雅虎财经的“关键统计”选项卡。 HTML 页面包含我使用 Beautiful Soup 废弃的多个表。每个表仅包含 2 列,而我设法...

回答 1 投票 0

BeatuifulSoup 迭代超过 10,000 个页面并获取数据,解析:欧洲志愿服务:一个从 EU-Site 收集机会的小型抓取工具

我正在寻找欧洲志愿服务的公开列表:我不需要完整的地址 - 但需要名称和网站。我想到数据... XML、CSV ... 具有这些字段:名称、国家/地区 - ...

回答 1 投票 0

如何从维基百科抓取列表?

我面临着与如何从维基百科中抓取列表并传输到数据框提出的问题类似的问题。我想从列表“现代战争少于 25...

回答 1 投票 0

BeatuifulSoup 从欧洲志愿服务获取数据并解析:一个从 EU-Site 收集机会的小型抓取工具

正在寻找欧洲志愿服务的公开列表:我不需要完整的地址 - 但需要名称和网站。我想到数据... XML、CSV ... 具有这些字段:名称、国家/地区 - 一个...

回答 1 投票 0

我想抓取一个名字,但得到的输出是NONE

我正在抓取一个网站,想要提取名称和价格,但输出结果为“无”。我不知道我在这里做错了什么,因为我期待价格和名称的推出。

回答 1 投票 0

从页面检索元素

我想在 https://echa.europa.eu/brief-profile/-/briefprofile/100.000.685 上检索化学品的 IUPAC 名称 我希望在此示例中打印结果返回 Benzene。 下面的代码...

回答 1 投票 0

抓取惰性动态加载页面

我需要抓取分类,但页面正在动态加载。当您向下滚动页面时,它会加载新元素。我使 autoScroll 功能,它增加了项目的数量。当我延迟或

回答 1 投票 0

网络抓取 Twitter 帖子

导入请求 从 bs4 导入 BeautifulSoup url = 'https://twitter.com/GeniResearch/status/1755137950403219646' 响应 = requests.get(url) 打印(响应) 汤 = BeautifulSoup(response.conten...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.