beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

我正在尝试抓取一个网站的页面，该页面的信息用嵌套表组织在中。特别是，我想要的特定表都有一个嵌套的和我正在尝试抓取一个网站的页面，该页面的信息用嵌套表格组织在<table>中。特别是，我想要的特定表格都有一个嵌套的 <table>，其中 <tr> 包含 <th>，其中 <span> 包含某些文本。类似这样的： <table> <tbody> <tr> <td> <table> <tbody> ... <tr> <th> <span>Text that should be in each table i want to get</span> </th> ... 换句话说，我如何搜索包含特定文本的标签，但获得该标签的远祖？用例是我需要此处描述的最外层表中的大量数据，但是我可以搜索该父表的属性，因此我需要根据其后代进行搜索。我尝试过只是搜索，但表格太多了，因为页面几乎完全是用它们组织的，所以很难挑选并准确找到我需要的内容。我希望找到一种方法来搜索后代满足条件的标签。如果我可以检查某个深度的后代（例如，如果我知道跨度位于表的该深度，我可以搜索它吗？），那就更好了，因为最外面的表将在其中包含所有这些表，因此也满足某些后代拥有所需文本的条件。您可以使用 find_all() 在树中向下查找，查找包含该文本的后代标签。然后使用 find_parents() 回到树上，查看标签的父级。以下是在页面上查找标题文本并查找其父表标签的代码概要。 from bs4 import BeautifulSoup from urllib2 import urlopen import re PAGE_URL = "https://..." FIXED_HEADING_PATTERN = "Fixed text" soup = BeautifulSoup(urlopen(PAGE_URL).read()) pattern = re.compile(FIXED_HEADING_PATTERN) headings = soup.findAll("span", text=pattern) # For each heading found create a list of it's parent tables for heading in headings: parent_tables = [t for t in heading.find_parents("table")] # Use parent_tables

python html web-scraping beautifulsoup

回答 1 投票 0

如何从Wordle获取html

我尝试使用 Beautiful Soup 来抓取 Wordle，但它没有按预期工作（很可能是因为它是动态的 JavaScript）。我试着环顾四周，发现我必须使用 Seleniu...

python selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

尝试在selenium中获取xhr响应内容

我正在尝试使用 selenium 从 bitclout 中提取数据。我真正想要得到的是 xhr 选项卡中针对此 url (https://api.bitclout.com/api/v1/block) 加载的响应。你就会明白我的意思了

python-3.x selenium selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

Python：使用 Selenium/BS4 抓取使用脚本填充的画布

我正在尝试为我的 Pyside6 应用程序实现一个价格跟踪页面，我想通过使用 Selenium 和 bs4 进行网页抓取来实现。我的代码进入了一个名为 Cardmarket 的网站页面，现在我是