web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”（例如使用Excel VBA）的问题应该*进行彻底的研究*，因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序，定制软件的开发，甚至是标准化方式的手动数据收集。

抓取网页并加载更多

我正在尝试抓取网站：每日时间。我无法抓取某个关键字的所有新闻标题和链接，例如“芭比娃娃”。 “加载更多”后我无法抓取信息。什么...

python web-scraping beautifulsoup

回答 1 投票 0

Scrapy Playwright页面方法：防止找不到选择器时出现超时错误

我的问题与Scrapy Playwright有关，以及如果无法找到特定选择器，如何防止蜘蛛页面崩溃。下面是一个使用 Playwright 进行交互的 Scrapy Spider...

python web-scraping scrapy playwright scrapy-playwright

回答 1 投票 0

抓取网站cloudfare突然抛出错误403，但重新启动抓取器它又可以工作了

我正在使用参数（area和isLet）废弃站点数据网站cloudfare会突然抛出403错误，尤其是当isLet改变时。奇怪的是当我重新启动我的 scrapper pro 时......

c# api web-scraping postman

回答 1 投票 0

Python 请求 get 返回 nse 印度网站的响应代码 401

我使用这个程序从https://www.nseindia.com/api/option-chain-indices?symbol=NIFTY获取json数据但从今天早上开始，它就无法正常工作了。链接是...

python python-3.x web-scraping python-requests

回答 6 投票 0

无法使用Beautifulsoup和Request从span标签中提取文本

我正在尝试删除此在线论坛上的帖子。 https://csn.cancer.org/categories/prostate 所有帖子似乎都在跨度标签中。我使用下面的代码来废弃帖子。导入请求来自 BS4 我...

python web-scraping beautifulsoup python-requests

回答 1 投票 0

Selenium 与 python（选择选项）

我正在使用 python 测试 selenium，我需要从下拉列表中选择一个选项。在这种情况下，我正在使用网站 https://www.motogp.com/es/gp-results/2024/qat/motogp/rac/classification 进行测试，我...

python selenium-webdriver web-scraping

回答 1 投票 0

在 Chrome 浏览器或邮递员中调用 url 工作正常，但使用 axios 时会出现 404 错误

我有一个网址，当我使用浏览器和邮递员调用该网址时，它工作正常，但使用 axios 它会抛出 404 错误，如果有人帮助我清除此错误，我将不胜感激我给…

javascript web-scraping server axios http-status-code-404

回答 1 投票 0

Python 使用请求登录困难的网站

登录并重定向到 https://www.fpl.com/northwest/my-account 后，我尝试从 https://www.fpl.com/my-account/login.html 抓取数据/能源仪表板。我已经检查过 si...

python web-scraping beautifulsoup python-requests

回答 1 投票 0

如何从网页中找出我要导入的表的索引是什么？

需要一些有关 importhtml() 函数的帮助，因为我正在尝试从具有许多表的 html 导入表。它的语法是这样的： IMPORTHTML（网址、查询、索引）我不明白的是我怎样才能找到...

html web-scraping google-sheets

回答 2 投票 0

使用 Python 的网站网络抓取电子邮件

在我的Python代码中，我有正则表达式来查找电子邮件： soup = BeautifulSoup(driver.page_source, "html.parser") text_email = soup.get_text() emails1 = re.findall(r'([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+...

python-3.x regex web-scraping

回答 1 投票 0

BeautifulSoup：超过 24 个字符（从 a 到 z）的迭代失败：降低复杂性以初步了解数据集：

我在网站上有一份西班牙保险公司名单 - 分为 24 个标题：请参阅以下内容保险 - 西班牙语：完整列表：https://www.unespa.es/en/directory 它分为24...

python dataframe web-scraping beautifulsoup request

回答 1 投票 0

在Python中抓取网页时表格不出现

我发生了一件有趣的事情，但我不知道发生了什么。我正在尝试从以下位置进行网络抓取： https://www.pro-football-reference.com/teams/kan/2023_roster.htm 我想要的桌子...

python pandas web-scraping beautifulsoup

回答 0 投票 0

通过 selenium 进行日志记录是否被 twitter 屏蔽了？

即使使用 selenium 具有有效凭据，也无法登录 Twitter。 Elements 接受凭据并验证它们，但登录后不会重定向到主页。登录详细信息和主要...

python selenium-webdriver web-scraping twitter

回答 1 投票 0

为什么 find_elements(By.CLASS_NAME) 在 selenium、python 中不起作用？

我正在开发一个项目，从 Reddit 上抓取故事，但我遇到了一个问题。对于每个 Reddit 子版块，您单击的按钮将带您前往帖子，其中包含 HTML：我正在开发一个项目，从 Reddit 上抓取故事，但遇到了问题。对于每个 Reddit 子版块，您单击的按钮将带您前往帖子，其中包含 HTML： <a class="absolute inset-0" slot="full-post-link" href="*the link*" target="_self"> 我尝试测试的具体代码是： <a class="absolute inset-0" slot="full-post-link" href="/r/ProRevenge/comments/cvb3b6/coworker_tried_to_get_me_fired_over_breast/" target="_self"> <faceplate-screen-reader-content> #shadow-root (open)  <slot> <#text> </slot> Coworker tried to get me fired over breast implants, so I pulled a reverse uno card. </faceplate-screen-reader-content> </a> 我想检索此链接并转到它，并已尝试过： links = driver.find_elements(By.CLASS_NAME, 'absolute inset-0') 但是当它运行时，我只是得到一个空数组。为了澄清起见，我确实尝试使用 By.XPATH 查找并单击按钮，效果很好。唯一的事情是我知道使用 XPATH 确实是不好的做法，我宁愿通过 By.CLASS_NAME 找到按钮。以下代码给了我我所需要的： storyBtn = driver.find_element(By.XPATH, '/html/body/shreddit-app/dsa-transparency-modal-provider/div/div[1]/div[2]/main/div[2]/article[1]/shreddit-post/a[1]') storyBtn.click() url = str(driver.current_url) 我使用的链接是：https://www.reddit.com/r/ProRevenge/top/?t=all 有谁知道怎么回事吗？ <a class="absolute inset-0" slot="full-post-link" href="*the link*" target="_self"> 可以看到class属性的值包含空格，这意味着它有多个值。在本例中，它有两个值，absolute 和 inset-0，而不是 absolute inset-0。 By.CLASS_NAME 仅接受单个类名。 By.CSS_SELECTOR甚至接受多个类别。你可以试试 links = driver.find_elements(By.CSS_SELECTOR, 'a.absolute.inset-0')

python selenium-webdriver web-scraping

回答 1 投票 0

如何通过谷歌翻译翻译图像中的文本而不提取它？ Python 3.X

我最近尝试开发一个程序来翻译图像中的文本。这无需提取文本，因为该程序适用于漫画！我尝试使用 Yandex 等不同网站来...

python selenium-webdriver web-scraping selenium-chromedriver google-translate

回答 3 投票 0

与 BeautifulSoup 一起从公告牌热门 100 名艺术家单曲历史中抓取

我正在尝试抓取艺术家广告牌页面上的所有信息，因为这些信息与他们的单曲和他们的表演有关。我正在尝试重新设计我在其他地方看到的解决方案..它的工作效率很高...

python html web-scraping beautifulsoup python-requests

回答 1 投票 0

x从特定表中提取值的路径？

前段时间我成功制作了一个数据库，其中包含特定国家/地区销售的汽车数量。我从中提取数据的网站已更改，多个国家/地区的数据现在混合在同一页面上。