web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何在时间范围内获得所有维基百科帐户?

我正在尝试复制这篇论文,其中使用了 2010 年 9 月 9 日至 2011 年 2 月 14 日之间制作的用户帐户的随机样本。我如何使用维基百科 API 来获取此数据? 我不能

回答 1 投票 0

使用 selenium 无头浏览器在无 GUI 环境中进行抓取

目前正在没有GUI的环境中测试我的项目,它是用python编写的,以便使用selenium包和无头浏览器从facebook市场上抓取数据,链接到该项目:...

回答 1 投票 0

网页抓取 - 执行“全部复制”而不是 HTML 解析

我需要有关如何在不进行正常 HTML 解析的情况下从网页捕获数据的建议。数据通过我无法看到的幕后脚本和服务器端方法呈现到屏幕上......

回答 1 投票 0

Python Selenium 自动重定向问题

我在抓取 https://www.mca.gov.in/content/mca/global/en/home.html 时遇到问题。 每当我尝试在 selenium 或未检测到的 chromedriver 中打开它时,它会自动重定向到其主页...

回答 1 投票 0

python中的Scrapycrawlspider发现错误“'str'对象没有属性'iter'”

我遇到了网络抓取错误,但我不明白。我把这个代码贴了3天多了。有人可以帮我指导这个问题吗? 这是我的错误消息 2024-03-15 14:01:18 [...

回答 1 投票 0

使用 A 标签从 Wikipedia 上的 Div 文本中从链接中抓取到列表 DataFrame BeautifulSoup

我正处于编码的初级阶段...尝试使用“a”标签从 div 中的歌曲链接中抓取文本。然而,我只能得到alp中每个字母的第一首歌......

回答 1 投票 0

从网站抓取并输出被截断

我正在尝试从此网址中抓取作者:https://doi.org/10.1155/2021/2122095 它只抓取了 3 个作者,第四个在输出中被截断为椭圆形。 这里是...

回答 1 投票 0

使用 python 从具有源自原始链接的多个链接的站点中抓取数据的最佳方法是什么?

在我下面列出的示例中,它是弗吉尼亚理工大学所有校友关系章节的页面。我想深入了解校友关系的每一章并创建一个 CSV 文件......

回答 1 投票 0

使用 Phyton 进行 Un Comtrade 网页抓取 [已关闭]

我刚开始使用Python进行网页抓取。我需要从以下 URL 中提取数据:https://comtradeplus.un.org/TradeFlow?Frequency=A&Flows=X&CommodityCodes=TOTAL&Partners=0&

回答 1 投票 0

由于等待评论加载而导致网页抓取超时

我想编写一个Python脚本,通过它我可以阅读谷歌地图上特定位置/商店的所有评论。我尝试对代码进行多次修改,但始终超时

回答 1 投票 0

使用 Python 从 ESPNCricInfo StatsGuru 中抓取 .csv 数据

请您建议如何从以下网址进行抓取: https://stats.espncricinfo.com/ci/engine/stats/index.html?class=1;filter=advanced;orderby=innings;size=200;spanmax1=07+Aug+2020;span...

回答 2 投票 0

从标题(h2,h3,表格)中提取层次信息与休息

在此网站 https://www.quebec.ca/agriculture-environnement-et-ressources-naturelles/faune/gestion-faune-habitats-fauniques/especes-fauniques-menacees-vulnerables/liste 上,有以下表格特...

回答 1 投票 0

在 R 中抓取多个页面

我正在尝试废弃该网站并从多个页面中提取内容。我每次都使用 while 循环来增加页码,但它不起作用。它所做的只是重复相同的内容...

回答 1 投票 0

在 R 中运行 java 脚本

我正在尝试使用 R 从网页运行 javascript。并在 R 中创建内部变量。我可以使用像 selenium 这样的网络驱动程序来做到这一点,但我想使用 R 内部的 javascript 引擎 v8 来做到这一点...

回答 2 投票 0

无法使用此代码从文章中提取信息

这段代码应该从不同的文章链接中提取标题和正文,但由于没有找到任何标题或文本,它只是跳过了网址 # 网页抓取和数据处理 对于范围内的 i(2, ws.

回答 1 投票 0

使用python和google API抓取google搜索结果并出现错误10060

我有一个包含一些关键字的 csv 文件。我想收集所有关键字的所有搜索结果。到目前为止,这段代码运行良好。 Python 出现错误 10060。我想知道我的 IP 是否受到限制?还有……

回答 1 投票 0

如何使用selenium绕过滑块验证码来解决谜题?(Python)

在上述网站上,搜索令牌后,会出现滑块验证码。 验证码示例: 我想绕过滑块验证码。我参考了Unabl中的第一个解决方案...

回答 1 投票 0

美丽的汤不在外跨内定位内跨

我正在尝试为 Udemy 课程构建一个价格跟踪器,就像一个个人项目一样,因为我经常检查该网站是否有我想购买的课程的销售情况。我正在尝试使用美丽汤来抢夺...

回答 1 投票 0

在Python中使用Pandas使用.loc方法时出现KeyError

我有一个简单的项目,是使用从 Excel 工作表文件(xlsx 文件)收集的信息创建的。 这是我正在处理的信息 当我运行 df.iloc[1] 时 输出...

回答 1 投票 0

使用 R 中的正则表达式将一列分成多个列

我废弃了一个网络,现在需要清理“服务”列,它是一个字符串。 fl_data数据集中的service列,可以看到有Testing Servi等多种服务...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.