web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Pycharm、python、selenium 练习与报废问题

我是编码新手。这是什么意思?我该如何解决?这是我收到的错误: 行:1 字符:1 从硒导入网络驱动程序 此版本的

回答 1 投票 0

Selenium 从《太阳足球》网页抓取相同的标题、副标题和链接

我在使用 Selenium 从 The Sun Football 网站抓取新闻标题、字幕和链接时遇到了挑战。尽管实现了看似正确的 XPath 来定位所需的元素...

回答 1 投票 0

网页抓取时无法导航到下一页

我试图提取作为数据分析师所需的技能来进行分析项目以了解最需要的技能 我的代码工作正常,直到导航到下一页的部分......

回答 1 投票 0

`.find('li')` 给出 None 即使 `<li>` 标签存在于 soup

我正在尝试在requests.get()之后用beautifulsoup解析url内容[未在代码中显示]。使用的解析器是“html.parser”。我在一个大脚本中有以下代码片段。

回答 2 投票 0

无法从 HTML 中提取文本 <td class="seats" rowspan="1"><div class='jxSeats"> ... 2 个(共 22 个)使用 BeautifulSoup 打开

我正在使用 BeautifulSoup 并且已经能够解析文档的其他部分,但无法让它识别此文本。我究竟做错了什么?这让我发疯——救命! 我正在尝试扩展...

回答 1 投票 0

如何从URL找到.m3u8文件并下载

我正在尝试从给定的网站 URL 查找并下载 m3u8 文件。我该怎么做呢?我查看了页面源代码,但找不到任何 m3u8 文件的链接,尽管我可以看到

回答 1 投票 0

在实时服务器上使用 axios.get 时出现 404 响应

我正在学习使用 JavaScript 进行网页抓取,在尝试将一个简单的网页登录到控制台时,我收到了一个奇怪的 404 错误: 无法加载资源:服务器响应状态为 4...

回答 1 投票 0

在实时服务器上使用 axios.get 时出现 404 响应

我正在学习使用 JavaScript 进行网页抓取,在尝试将一个简单的网页登录到控制台时,我收到了一个奇怪的 404 错误: 无法加载资源:服务器响应状态为 4...

回答 1 投票 0

通过单击带有硒的按钮来抓取文本

我想用selenium抓取一些文本数据,我自己抓取页面没有问题,但我需要单击一个按钮来提取完整的文章,我只有来自mai的标题...

回答 1 投票 0

通过网页抓取提取文本:使用多个可选的开始/结束字符串循环

我想抓取一些新闻声明的文本。 我目前遇到的问题是定义几个字符串,其中文本的抓取应该开始/结束。例如...

回答 1 投票 0

如何在Golang中实现Goroutine的等待机制来检索池中的页面而不返回nil?

如何实现等待 goroutine 在已填充拉取的上下文中接收页面?因为如果没有错误,Page 永远不应该返回 nil。 类型浏览结构{ b *杆。

回答 1 投票 0

如何绕过网络抓取时的超时

我对抓取还比较陌生,目前我正在使用 R 中的学者包来尝试从 Google Scholar 中抓取有关研究人员的信息。然而,我有大约 500 个名字需要抓取,所以我...

回答 1 投票 0

为什么我在抓取此网站时没有收到正确的响应文本?

基本上,我正在尝试抓取一个网站,但我没有得到任何返回值作为响应。打印了response.text,但它没有提供动态数据。只有 . 中的非动态内容。打印回复...

回答 1 投票 0

Python & BeautifulSoup:如何获取没有识别信息的子标签

我正在尝试获取一个链接列表,这些链接在具有类的中没有识别信息。 汤 = BeautifulSoup(pageToScrape.text, "html.parser") items = soup.findAll('... 我正在尝试获取具有类的 <div> 中没有识别信息的链接列表。 soup = BeautifulSoup(pageToScrape.text, "html.parser") items = soup.findAll('div', attrs = {'class':'object'}) 我遇到的问题是,在获得项目列表后,我没有找到一种方法(检查 BeautifulSoup 文档)来获取子标签。我尝试了几种不同的“解决方案”,例如 items = items.findAll('a') items = items.select('.objects + div > a') items = [tag['a'] for tag in soup.iselect(".objects")] 我感觉很困难。 您已经在某些方面走上了正确的道路,但您混合了一些东西。 直接通过 css selector 从您的 soup 获取列表/结果集: soup.select('.objects + div > a') 或迭代您仍然创建的结果集: items = soup.find_all('div', attrs = {'class':'object'}) [obj.find('a') for obj in items] 在较新的代码中,请避免使用旧语法 findAll() 而是使用 find_all() 或 select() 与 css selectors - 有关更多信息,请花一分钟时间检查文档

回答 1 投票 0

为什么 Pandas 不抓取第二个表?

我想抓取2个表,但只得到第一个表的结果。 为什么?我对两个表使用相同的逻辑。 导入请求 从 bs4 导入 BeautifulSoup 将 pandas 导入为 pd #

回答 1 投票 0

为什么不用 Py 来清理表格呢?

我想抓取2个表,但只得到第一个表的结果。 为什么?我对两个表使用相同的逻辑。 导入请求 从 bs4 导入 BeautifulSoup 将 pandas 导入为 pd # 要废弃的 URL...

回答 1 投票 0

如何在Python Web Scraper中高效实现多线程?

您好 Stack Overflow 社区, 我目前正在开发一个涉及使用 Python 和 BeautifulSoup 进行网页抓取的项目。我现在拥有的代码适用于较小的网站,但它很困难......

回答 1 投票 0

向链接发送 HTTP 请求时无法正确使用字典参数

我正在尝试从此网页中抓取表格内容。我想显示发送带有参数的 GET HTTP 请求后收到的 JSON 响应。 当我手动输入参数时...

回答 2 投票 0

使用 Selenium 从页面获取所有 H2 元素

根据我之前的两个问题:Selenium 是否有类似 BeautifulSoup 的 Find All 的功能? 我需要在像这样的页面中获取H2标签的所有内容。 JeffC 带来的伟大代码...

回答 1 投票 0

使用选择器小工具在 R 中进行网页抓取

我正在尝试抓取以下网站:https://au.finance.yahoo.com/quote/META/analysis 我遇到了一些问题: 我使用选择器小工具突出显示表格。但它不起作用,因为它...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.