beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

即使没有错误,WebScraping 也不起作用

我想设计Python网页抓取代码来抓取这些数据(https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page)。 这是代码: 导入操作系统 导入请求 随机导入 导入时间 ...

回答 1 投票 0

如何使用BeautifulSoup从<a href="TextWithUrlBehind">Something</a>中提取url?

我正在尝试从网页中提取 .json 文件中的一些链接和文本。 我已经解析了 HTML tbody > tr > td,每个 td 都包含 Something&...

回答 1 投票 0

如何从需要点击/切换的网页中提取表格?

我正在尝试从此网页中提取表格,但我只能获取投球表。我也想获得命中表,理论上是这个 URL: https://www.cover...

回答 1 投票 0

使用 BeautifulSoup 抓取所有链接

我试图从页面上抓取所有比赛报告链接,但有“加载更多”按钮,而且我不想使用selenium。有没有解决方案可以收集所有不使用硒的链接。 谢谢

回答 1 投票 0

如何将抓取的 HTML 文档转换为数据框?

我正在尝试从网站 FBRef 抓取足球运动员的数据,我从网站获取了 bs4.element.ResultSet 对象的数据。 代码: 导入请求 从 bs4 导入 BeautifulSoup 进口...

回答 2 投票 0

Python 初学者:将从网站抓取的 HTML 文档转换为数据框

我正在尝试从网站 FBRef 抓取足球运动员的数据,我从网站获取了 bs4.element.ResultSet 对象的数据。 代码: 导入请求 从 bs4 导入 BeautifulSoup 进口...

回答 1 投票 0

使用 python 从 rotowire 抓取 MLB 每日阵容

我正在尝试从这里抓取 MLB 每日阵容信息:https://www.rotowire.com/baseball/daily-lineups.php 我正在尝试将 python 与请求、BeautifulSoup 和 pandas 一起使用。 我的终极...

回答 1 投票 0

如何在网页抓取时将 colspan 包含到表头

我是网络抓取新手,我正在尝试从该网站抓取 2022 年福布斯排行榜 - https://en.wikipedia.org/wiki/List_of_largest_companies_in_India , 但排名栏和福布斯排名...

回答 1 投票 0

如何在网页抓取时将 colspan 包含到表头中

我是网络抓取的新手,我正在尝试从该网站抓取 2022 年福布斯排行榜 - https://en.wikipedia.org/wiki/List_of_largest_companies_in_India , 但排名栏和福布斯排名

回答 1 投票 0

当我尝试使用 urllib 发送请求时,出现 InvalidURL: URL can't contains control characters

我正在尝试从用作 urllib 请求参数的链接获取 JSON 响应。但它给了我一个错误,它不能包含控制字符。 我该如何解决这个问题? 开始网址=...

回答 8 投票 0

如何在 beautifulsoup 中处理正则表达式

check_regex = re.compile("HO\s?#",re.IGNORECASE) check_ho_number3 = soup.select_one('td:-soup-contains("HO #")+ td') 打印(check_ho_number3) 有没有什么办法可以处理...

回答 1 投票 0

在网站中链接多个ajax请求以显示更多页面并在单页中获取完整列表

我想在单击“显示更多”按钮时向下滚动时获得完整页面https://icomarks.ai/icos/。它应该显示大约 8000 个元素。 显示更多按钮激活 POST 请求“...

回答 1 投票 0

如何使用 Python 和 Beautiful Soup 从 BBC 文章中抓取标题?

我之前构建过一个 BBC 抓取工具,除其他外,它还可以从给定的文章(例如本文)中抓取标题。然而,BBC 最近更改了他们的网站,所以我需要修改我的抓取工具,

回答 1 投票 0

如何从 Fast.com 获取网速结果

我想定期检查我的互联网速度,如果它下降到某个阈值,则重置我的路由器,这似乎可以修复我的 ISP“提供”的糟糕连接。 尽管可能有更简单的方法...

回答 4 投票 0

如何使用BeautifulSoup从多个页面提取数据

我正在尝试从网站上抓取数据,但有点陷入多页面问题。不知何故,我的迭代总是导致“所有数组必须具有相同的长度”有人可以帮助我吗...

回答 1 投票 0

从动态加载的页面中抓取网页内容(无限滚动)

我正在尝试从该网站收集所有图像文件名:https://www.shipspotting.com/ 我已经收集了所有类别名称及其 ID 号的 python 字典 cat_dict。所以我的力量...

回答 3 投票 0

初学者问题网页抓取(需要帮助)

我只是想问你是否可以告诉我这个网站是否可以废弃。 我尝试了很多方法但没有结果。 所以我只是想知道。 https://www.enterprise.com/en/car-rental.html?icid=header.

回答 1 投票 0

使用 python 在 Barchart.com 上自动下载文件

我想从此链接自动下载表格: https://www.barchart.com/options/iv-rank-percentile/stocks 为了做到这一点,在一些教程的帮助下,我写了这篇

回答 2 投票 0

bs4 中的 Soup.find 无法从 h1 标签中抓取,但适用于所有其他 HTML 标签

我在使用 BeautifulSoup 4 时遇到问题。我的代码运行良好,然后开始出错,无法再从 h1 标签收集内部文本。奇怪的是,它与所有功能都完美配合

回答 1 投票 0

从新闻网站提取的文本数据应该存储在哪种数据类型中以进行 NLP?

我使用 beautifulsoup 提取了以下文本数据 对于 soup2.find_all(class_="td-post-content") 中的数据: data.get_text() 我应该将上面提取的数据类型存储在哪种类型中

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.