beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

我有以下代码可以抓取此网站：https://www.hhs.gov/hipaa/for-professionals/compliance-enforcement/agreements/index.html 它会刮掉大约四分之一的链接和标题......

python web-scraping beautifulsoup

回答 1 投票 0

无法解决Python抓取代码问题

我正在使用 python/bs 来抓取此网站：https://www.hhs.gov/hipaa/for-professionals/compliance-enforcement/agreements/index.html 有两个令人烦恼的问题我无法解决：它总是包括...

python web-scraping beautifulsoup

回答 2 投票 0

获取BeautifulSoup Class属性值

我想使用BeautifulSoup从下面的结构html内容中获取仅3.5、4.3和2.5的值。请帮助如何废弃该值。 3.5 我想使用BeautifulSoup从下面的结构html内容中获取仅3.5、4.3和2.5的值。请帮忙如何废弃该值。 <div class="abc">3.5<img class="def" src=''</div> <div class="abc">4.3<img class="def" src=''</div> <div class="abc">2.5<img class="def" src=''</div> 这里有一个关于如何实现这一目标的快速片段。由于您没有提供任何代码，我不知道您的 html 来自哪里，所以我只是将您给定的 html 设置为变量。 from bs4 import BeautifulSoup html_content = """ <div class="abc">3.5<img class="def" src=''</div> <div class="abc">4.3<img class="def" src=''</div> <div class="abc">2.5<img class="def" src=''</div> """ # Initialize html parser soup = BeautifulSoup(html_content, 'html.parser') # Find all div elements with class 'abc' div_elements = soup.find_all('div', class_='abc') # Extract the text from each div element and print the value for div in div_elements: value = div.text.strip() # Get the text and remove leading/trailing spaces print(value) 这将打印出： 3.5 4.3 2.5

python beautifulsoup

回答 1 投票 0

错误：NoneType'对象没有属性'find_all'

我有一些基本的代码用于从页面中提取数据，问题是一周前它停止工作，我收到错误“NoneType”对象没有属性“find_all”，也许有些东西有

python web-scraping beautifulsoup

回答 1 投票 0

如何在保持兄弟姐妹beautifulsoup的同时插入和删除标签？

我收到一个 html 格式的表格，需要迭代它以找到设置了 rowspan 的标签。一旦找到 rowspan= 的单元格，我需要插入一段代码：我收到一个 html 格式的表格，需要遍历它以查找设置了 rowspan 的标签。一旦找到带有 rowspan=<a number> 的单元格，我需要插入一段代码： <tr> <th rowspan="14" >Words</th> <td style="height: 30px;"></td> <td style="text-align: center; height: 30px;"></td> <td style="height: 30px;"></td> <td style="text-align: right; padding: 7px; min-width: 75px"></td> <td style="height: 30px;"></td> <td style="height: 30px;"></td> <td style="height: 30px;"></td> </tr>\n 作为当前行上方的行。然后，我需要从当前行中删除这个 <th>。例如，这是我要搜索的代码： <table border="1" class="dataframe" style="border: 1px solid grey"> <tbody> <tr> <th>Records</th> <th>Worth</th> <td>30</td> <td>is</td> <td>50</td> <td>0</td> <td>good</td> <td></td> </tr> <tr>  <th rowspan="13" valign="top">Reports</th>  <th>Worth</th> <td>30</td> <td>=</td> <td>40</td> <td>0</td> <td>bad</td> <td></td> </tr> <tr> <th>Worth</th> <td>is</td> <td>44</td> <td>400.0</td> <td></td> <td>bad</td> <td></td> </tr> </tbody> </table> 因此，一旦我找到带有 <th> 的 rowspan，我需要将该块插入到其上方的行，然后从当前行中删除 <th>。这就是我现在的做法： for child in soup.tbody.descendants: if child.name == 'th': if 'rowspan' in child.attrs: new_row = <<that block from above>> crazy_tag = bs4.BeautifulSoup(new_row, 'html.parser') x = child.find_previous('tr') x.insert_before(crazy_tag) child.extract() 我正在寻找的输出是这样的： <table border="1" class="dataframe" style="border: 1px solid grey"> <tbody> <tr> <th>Records</th> <th>Worth</th> <td>30</td> <td>is</td> <td>50</td> <td>0</td> <td>good</td> <td></td> </tr> <tr> <th rowspan="14" >Words</th> <td style="height: 30px;"></td> <td style="text-align: center; height: 30px;"></td> <td style="height: 30px;"></td> <td style="text-align: right; padding: 7px; min-width: 75px"></td> <td style="height: 30px;"></td> <td style="height: 30px;"></td> <td style="height: 30px;"></td> </tr> <tr> <th>Worth</th> <td>30</td> <td>=</td> <td>40</td> <td>0</td> <td>bad</td> <td></td> </tr> <tr> <th>Worth</th> <td>is</td> <td>44</td> <td>400.0</td> <td></td> <td>bad</td> <td></td> </tr> </tbody> </table> 好消息是，我的代码做了我想要的事情，并且得到了想要的输出。坏消息是，在完成之前我还必须对此 html 执行其他操作。在我执行此操作并继续循环后代之后，下一次迭代给我 None 。我认为 extract() 保持了树的结构完整，但似乎我插入的块或我删除的行都没有保留树结构。有什么想法吗？我的问题基本上可以归结为：如何将一些 html 插入到一个漂亮的 soup 对象中并提取一行而不破坏文档中的兄弟关系？相反，.insert_before()/.extract()，您可以使用简单的.replace_with()： from bs4 import BeautifulSoup html_text = """\ <table border="1" class="dataframe" style="border: 1px solid grey"> <tbody> <tr> <th>Records</th> <th>Worth</th> <td>30</td> <td>is</td> <td>50</td> <td>0</td> <td>good</td> <td></td> </tr> <tr>  <th rowspan="13" valign="top">Reports</th>  <th>Worth</th> <td>30</td> <td>=</td> <td>40</td> <td>0</td> <td>bad</td> <td></td> </tr> <tr> <th>Worth</th> <td>is</td> <td>44</td> <td>400.0</td> <td></td> <td>bad</td> <td></td> </tr> </tbody> </table>""" snippet = """\ <tr> <th rowspan="14" >Words</th> <td style="height: 30px;"></td> <td style="text-align: center; height: 30px;"></td> <td style="height: 30px;"></td> <td style="text-align: right; padding: 7px; min-width: 75px"></td> <td style="height: 30px;"></td> <td style="height: 30px;"></td> <td style="height: 30px;"></td> </tr>""" soup = BeautifulSoup(html_text, "html.parser") for th in soup.select("th[rowspan]"): th.replace_with(BeautifulSoup(snippet, "html.parser")) print(soup) 打印： <table border="1" class="dataframe" style="border: 1px solid grey"> <tbody> <tr> <th>Records</th> <th>Worth</th> <td>30</td> <td>is</td> <td>50</td> <td>0</td> <td>good</td> <td></td> </tr> <tr>  <tr> <th rowspan="14">Words</th> <td style="height: 30px;"></td> <td style="text-align: center; height: 30px;"></td> <td style="height: 30px;"></td> <td style="text-align: right; padding: 7px; min-width: 75px"></td> <td style="height: 30px;"></td> <td style="height: 30px;"></td> <td style="height: 30px;"></td> </tr>  <th>Worth</th> <td>30</td> <td>=</td> <td>40</td> <td>0</td> <td>bad</td> <td></td> </tr> <tr> <th>Worth</th> <td>is</td> <td>44</td> <td>400.0</td> <td></td> <td>bad</td> <td></td> </tr> </tbody> </table>

python html beautifulsoup tags

回答 1 投票 0

尝试解析 rss feed 的描述标签时没有得到任何结果

所以我正在访问这个 RSS feed 如您所见，有一个描述标签。当我解析提要时，它不会返回任何描述标签这是我收到的错误消息属性错误：'

python parsing beautifulsoup rss

回答 1 投票 0

使用2captcha解决Hcaptcha自动化网站搜索（Python）

我正在尝试通过Python 自动化网络搜索。该网站位于 hCaptcha 后面，但我使用的是 2captcha 解算器。尽管我已经复制了网络浏览器的行为，但我仍然被要求解决

python beautifulsoup python-requests httpx 2captcha

回答 1 投票 0

使用 Python 中的网页抓取比较两个在线超市的价格

我正在开发一个程序，使用Python比较两个在线超市的类似产品的价格。我有两个代表每个供应商的产品页面的 URL，我需要提取和