beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

如何使用Python从网站中提取url?

我正在为一个大学项目工作,我想使用网络抓取和文本挖掘来分析最受欢迎的电视节目的特征。 所以我尝试从每个电视节目中抓取网址...

回答 1 投票 0

BeautifulSoup已安装但仍然出现导入错误:没有名为BeautifulSoup的模块

我成功安装了BeautifulSoup。这是最新的更新。但我仍然得到“ 导入错误:没有名为 BeautifulSoup 的模块 运行代码时。 需要帮助!!

回答 2 投票 0

如何使用 Beautiful Soup 在结束 body 标签之前插入元素?

在 HTML 页面的 中插入元素作为最后一个元素的最有效方法是什么?

回答 1 投票 0

使用 BeautifulSoup 在关闭 body 之前插入一个元素

将元素插入 HTML 页面正文中的最后一个元素的最有效方法是什么?

回答 1 投票 0

抓取 ESPN 梦幻棒球联盟球员观看列表

我正在尝试抓取我的观察列表上的球员,但由于联赛是私人的,我无法正常抓取,因为我必须先进行身份验证。我尝试了多种方法,例如通过我的coo...

回答 1 投票 0

如何在bs4.element.ResultSet类型对象中查找标签

我正在学习/进行网页抓取并遇到一个问题,我有一个 bs4.element.ResultSet 类型的对象 其中包含一些 div 标签,我想像在 bs4.BeautifulSoup 类型对象中那样提取它

回答 2 投票 0

这是抓取雅虎财经新网页的解决方案[重复]

尝试 AttributeError 时出现以下错误:“NoneType”对象没有属性“text” 导入请求 从 bs4 导入 BeautifulSoup 将 numpy 导入为 np 标题= { ...

回答 3 投票 0

如何抓取html

我对 html 相当陌生,并且在网络抓取方面遇到了一些挑战。在下面的 html 段落中,我尝试抓取 aria 标签中的“Data Scientist II”文本。 我对 html 相当陌生,并且在网络抓取方面遇到了一些挑战。在下面的 html 段落中,我试图在 aria-label 中抓取“Data Scientist II”文本。 <a data-control-id="6XxJ9ssOLIRDcWIL1z8RsQ==" tabindex="0" href="/jobs/view/3887162789/?eBP=NOT_ELIGIBLE_FOR_CHARGING&amp;refId=lrkBiI0LdRr1s7LD5Y1gkA%3D%3D&amp;trackingId=6XxJ9ssOLIRDcWIL1z8RsQ%3D%3D&amp;trk=flagship3_search_srp_jobs" id="ember2564" class="disabled ember-view job-card-container__link job-card-list__title job-card-list__title--link" aria-label="Data Scientist II"> 我的代码摘录如下: job_postings = soup.find_all('li', {'class': 'jobs-search-results__list-item'}) data = [] for job_posting in job_postings: try: job_title = job_posting.find('disabled ember-view job-card-container__link job-card-list__title job-card-list__title--link', class_='aria-label').get_text().strip() 但是代码没有产生结果。我怀疑我走在正确的轨道上,可以快速修复所需的最后一行代码。任何对此的帮助将不胜感激。 aria-label是A标签的属性。要使用 beautifulsoup 获取属性的值,您需要使用 element['attribute_name'] 或者在这种情况下 element['aria-label'] 你的代码应该是 job_title = job_posting.find('disabled ember-view job-card-container__link job-card-list__title job-card-list__title--link')['aria-label']

回答 1 投票 0

AttributeError:“NoneType”对象没有属性“text”。当网页抓取时

尝试 AttributeError 时出现以下错误:“NoneType”对象没有属性“text” 导入请求 从 bs4 导入 BeautifulSoup 将 numpy 导入为 np 标题= { ...

回答 1 投票 0

抓取页面中元素的网络部分的内容

我需要抓取一个页面,网站如下: https://commercialisti.it/iscritti 它只有意大利语,但仍然是我可以通过“Cap&q...

回答 1 投票 0

`.find('li')` 给出 None 即使 `<li>` 标签存在于 soup

我正在尝试在requests.get()之后用beautifulsoup解析url内容[未在代码中显示]。使用的解析器是“html.parser”。我在一个大脚本中有以下代码片段。

回答 2 投票 0

使用 python 将 rotowire MLB 球员新闻和表格抓取到表格中

我想抓取 https://www.rotowire.com/baseball/news.php,其中包含有关 MLB 球员的新闻,并将数据保存为表格格式,如下所示: 日期 玩家 标题 消息 4/17 阿布纳·乌里韦 图片...

回答 1 投票 0

无法从 HTML 中提取文本 <td class="seats" rowspan="1"><div class='jxSeats"> ... 2 个(共 22 个)使用 BeautifulSoup 打开

我正在使用 BeautifulSoup 并且已经能够解析文档的其他部分,但无法让它识别此文本。我究竟做错了什么?这让我发疯——救命! 我正在尝试扩展...

回答 1 投票 0

使用 BeautifulSoup 进行网页抓取只会给出 NonType 错误

从此链接:https://www.lse.ac.uk/study-at-lse/undergraduate/bsc-finance?year=9a9aaf13-af33-47f6-9150-8eabe38f0aa8 我想抓取“课程内容&qu...”部分下的课程代码

回答 1 投票 0

为什么我在抓取此网站时没有收到正确的响应文本?

基本上,我正在尝试抓取一个网站,但我没有得到任何返回值作为响应。打印了response.text,但它没有提供动态数据。只有 . 中的非动态内容。打印回复...

回答 1 投票 0

Python & BeautifulSoup:如何获取没有识别信息的子标签

我正在尝试获取一个链接列表,这些链接在具有类的中没有识别信息。 汤 = BeautifulSoup(pageToScrape.text, "html.parser") items = soup.findAll('... 我正在尝试获取具有类的 <div> 中没有识别信息的链接列表。 soup = BeautifulSoup(pageToScrape.text, "html.parser") items = soup.findAll('div', attrs = {'class':'object'}) 我遇到的问题是,在获得项目列表后,我没有找到一种方法(检查 BeautifulSoup 文档)来获取子标签。我尝试了几种不同的“解决方案”,例如 items = items.findAll('a') items = items.select('.objects + div > a') items = [tag['a'] for tag in soup.iselect(".objects")] 我感觉很困难。 您已经在某些方面走上了正确的道路,但您混合了一些东西。 直接通过 css selector 从您的 soup 获取列表/结果集: soup.select('.objects + div > a') 或迭代您仍然创建的结果集: items = soup.find_all('div', attrs = {'class':'object'}) [obj.find('a') for obj in items] 在较新的代码中,请避免使用旧语法 findAll() 而是使用 find_all() 或 select() 与 css selectors - 有关更多信息,请花一分钟时间检查文档

回答 1 投票 0

Python & BeautifulSoup:尝试获取没有识别信息的子标签

我正在尝试获取一个链接列表,这些链接在具有类的 div 标签内没有标识信息。 汤 = BeautifulSoup(pageToScrape.text, "html.parser") items = soup.findAll('div',

回答 1 投票 0

为什么 Pandas 不抓取第二个表?

我想抓取2个表,但只得到第一个表的结果。 为什么?我对两个表使用相同的逻辑。 导入请求 从 bs4 导入 BeautifulSoup 将 pandas 导入为 pd #

回答 1 投票 0

为什么不用 Py 来清理表格呢?

我想抓取2个表,但只得到第一个表的结果。 为什么?我对两个表使用相同的逻辑。 导入请求 从 bs4 导入 BeautifulSoup 将 pandas 导入为 pd # 要废弃的 URL...

回答 1 投票 0

如何在Python Web Scraper中高效实现多线程?

您好 Stack Overflow 社区, 我目前正在开发一个涉及使用 Python 和 BeautifulSoup 进行网页抓取的项目。我现在拥有的代码适用于较小的网站,但它很困难......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.