web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

抓取网页并加载更多

我正在尝试抓取网站:每日时间。我无法抓取某个关键字的所有新闻标题和链接,例如“芭比娃娃”。 “加载更多”后我无法抓取信息。什么...

回答 1 投票 0

Scrapy Playwright页面方法:防止找不到选择器时出现超时错误

我的问题与Scrapy Playwright有关,以及如果无法找到特定选择器,如何防止蜘蛛页面崩溃。 下面是一个使用 Playwright 进行交互的 Scrapy Spider...

回答 1 投票 0

抓取网站cloudfare突然抛出错误403,但重新启动抓取器它又可以工作了

我正在使用参数(area和isLet)废弃站点数据 网站cloudfare会突然抛出403错误,尤其是当isLet改变时。 奇怪的是当我重新启动我的 scrapper pro 时......

回答 1 投票 0

Python 请求 get 返回 nse 印度网站的响应代码 401

我使用这个程序从https://www.nseindia.com/api/option-chain-indices?symbol=NIFTY获取json数据 但从今天早上开始,它就无法正常工作了。链接是...

回答 6 投票 0

无法使用Beautifulsoup和Request从span标签中提取文本

我正在尝试删除此在线论坛上的帖子。 https://csn.cancer.org/categories/prostate 所有帖子似乎都在跨度标签中。 我使用下面的代码来废弃帖子。 导入请求 来自 BS4 我...

回答 1 投票 0

Selenium 与 python(选择选项)

我正在使用 python 测试 selenium,我需要从下拉列表中选择一个选项。 在这种情况下,我正在使用网站 https://www.motogp.com/es/gp-results/2024/qat/motogp/rac/classification 进行测试,我...

回答 1 投票 0

在 Chrome 浏览器或邮递员中调用 url 工作正常,但使用 axios 时会出现 404 错误

我有一个网址,当我使用浏览器和邮递员调用该网址时,它工作正常,但使用 axios 它会抛出 404 错误,如果有人帮助我清除此错误,我将不胜感激 我给…

回答 1 投票 0

Python 使用请求登录困难的网站

登录并重定向到 https://www.fpl.com/northwest/my-account 后,我尝试从 https://www.fpl.com/my-account/login.html 抓取数据/能源仪表板。我已经检查过 si...

回答 1 投票 0

如何从网页中找出我要导入的表的索引是什么?

需要一些有关 importhtml() 函数的帮助,因为我正在尝试从具有许多表的 html 导入表。它的语法是这样的: IMPORTHTML(网址、查询、索引) 我不明白的是我怎样才能找到...

回答 2 投票 0

使用 Python 的网站网络抓取电子邮件

在我的Python代码中,我有正则表达式来查找电子邮件: soup = BeautifulSoup(driver.page_source, "html.parser") text_email = soup.get_text() emails1 = re.findall(r'([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+...

回答 1 投票 0

BeautifulSoup:超过 24 个字符(从 a 到 z)的迭代失败:降低复杂性以初步了解数据集:

我在网站上有一份西班牙保险公司名单 - 分为 24 个标题:请参阅以下内容 保险 - 西班牙语: 完整列表:https://www.unespa.es/en/directory 它分为24...

回答 1 投票 0

在Python中抓取网页时表格不出现

我发生了一件有趣的事情,但我不知道发生了什么。我正在尝试从以下位置进行网络抓取: https://www.pro-football-reference.com/teams/kan/2023_roster.htm 我想要的桌子...

回答 0 投票 0

通过 selenium 进行日志记录是否被 twitter 屏蔽了?

即使使用 selenium 具有有效凭据,也无法登录 Twitter。 Elements 接受凭据并验证它们,但登录后不会重定向到主页。 登录详细信息和主要...

回答 1 投票 0

为什么 find_elements(By.CLASS_NAME) 在 selenium、python 中不起作用?

我正在开发一个项目,从 Reddit 上抓取故事,但我遇到了一个问题。对于每个 Reddit 子版块,您单击的按钮将带您前往帖子,其中包含 HTML: 我正在开发一个项目,从 Reddit 上抓取故事,但遇到了问题。对于每个 Reddit 子版块,您单击的按钮将带您前往帖子,其中包含 HTML: <a class="absolute inset-0" slot="full-post-link" href="*the link*" target="_self"> 我尝试测试的具体代码是: <a class="absolute inset-0" slot="full-post-link" href="/r/ProRevenge/comments/cvb3b6/coworker_tried_to_get_me_fired_over_breast/" target="_self"> <faceplate-screen-reader-content> #shadow-root (open) <!----> <slot> <#text> </slot> Coworker tried to get me fired over breast implants, so I pulled a reverse uno card. </faceplate-screen-reader-content> </a> 我想检索此链接并转到它,并已尝试过: links = driver.find_elements(By.CLASS_NAME, 'absolute inset-0') 但是当它运行时,我只是得到一个空数组。 为了澄清起见,我确实尝试使用 By.XPATH 查找并单击按钮,效果很好。唯一的事情是我知道使用 XPATH 确实是不好的做法,我宁愿通过 By.CLASS_NAME 找到按钮。以下代码给了我我所需要的: storyBtn = driver.find_element(By.XPATH, '/html/body/shreddit-app/dsa-transparency-modal-provider/div/div[1]/div[2]/main/div[2]/article[1]/shreddit-post/a[1]') storyBtn.click() url = str(driver.current_url) 我使用的链接是:https://www.reddit.com/r/ProRevenge/top/?t=all 有谁知道怎么回事吗? <a class="absolute inset-0" slot="full-post-link" href="*the link*" target="_self"> 可以看到class属性的值包含空格,这意味着它有多个值。 在本例中,它有两个值,absolute 和 inset-0,而不是 absolute inset-0。 By.CLASS_NAME 仅接受单个类名。 By.CSS_SELECTOR甚至接受多个类别。 你可以试试 links = driver.find_elements(By.CSS_SELECTOR, 'a.absolute.inset-0')

回答 1 投票 0

如何通过谷歌翻译翻译图像中的文本而不提取它? Python 3.X

我最近尝试开发一个程序来翻译图像中的文本。这无需提取文本,因为该程序适用于漫画! 我尝试使用 Yandex 等不同网站来...

回答 3 投票 0

与 BeautifulSoup 一起从公告牌热门 100 名艺术家单曲历史中抓取

我正在尝试抓取艺术家广告牌页面上的所有信息,因为这些信息与他们的单曲和他们的表演有关。我正在尝试重新设计我在其他地方看到的解决方案..它的工作效率很高...

回答 1 投票 0

x从特定表中提取值的路径?

前段时间我成功制作了一个数据库,其中包含特定国家/地区销售的汽车数量。我从中提取数据的网站已更改,多个国家/地区的数据现在混合在同一页面上。

回答 1 投票 0

网络定价抓取工具,创建 URL 循环

我正在尝试创建一个网络抓取工具,从 B 列中的 URL 获取定价。 我想要一个循环,以便将 HTML 中的价格提取到 C 列。 我的代码给出了“自动化错误”。 我的

回答 1 投票 0

scrapy,selenium 不会返回页面中的所有元素

我想减少代码完成抓取页面所需的时间,我正在使用硒。 我在这个抓取项目中使用了 Scrapy,但 JavaScript 隐藏了 Scrapy 中的电子邮件元素。 斯克...

回答 2 投票 0

如何在 Windows 上使用 BeautifulSoup 创建 Python 脚本来下载 WIkimedia Commons 文件夹中每张图片的最高分辨率?

所以,我是古斯塔夫·多雷(Gustave Doré)的忠实粉丝,我想从组织整齐的维基共享资源文件夹中下载他的所有版画。 因此,给定一个 Wikimedia Commons 文件夹,我需要下载...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.