beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

从动态页面提取完整评论和评级时遇到问题

我想从网站上抓取提取数据： https://www.kununu.com/de/adidas/kommentare 但是，当我尝试通过 webdriver 提取整个 HTML 代码时，某些数据未提取。失踪的达...

python html json selenium-webdriver beautifulsoup

回答 1 投票 0

Headless chrome 和 html 解析器字符串

我目前正在使用 selenium 和 BeautifulSoup 来抓取网站，但我遇到了两个主要问题，首先，我无法让 Chrome 以无头模式启动，并且它说有多个

python selenium web-scraping beautifulsoup headless-browser

回答 2 投票 0

AttributeError：当从 html 中按名称提取值时，“str”对象没有属性“text”

这里是我的 html，它是我的一个 API 调用的响应正文的一部分，我想从中提取 SAMLResponse 值。这是我的 html，它是我的一个 API 调用的响应正文的一部分，我想从中提取 SAMLResponse 值。 <html> <head> <meta charset="utf-8" /> </head> <body onload="document.forms[0].submit()"> <noscript> <p> <strong>Note:</strong> Since your browser does not support JavaScript, you must press the Continue button once to proceed. </p> </noscript> <form action="https://idpftc.fortinet.com/saml/Gy736KPK3v1aWDPECRZKAn/logout/" method="post"> <input type="hidden" name="SAMLRequest" value="GV4Pjwvc2FtbHA6TG9nb3V0UmVxdWVzdD4K"/> <input type="hidden" name="RelayState" value="id-1jrGp3Fx271D7u3st|1709777499|c6ec46798457a5bb990b5c8e8a90bf34c6b55156"/> <noscript> <input type="submit" value="Continue"/> </noscript> </form> </body> 这是我尝试进行提取的Python代码。 from bs4 import BeautifulSoup def getSamlResponse(resp): soup = BeautifulSoup(resp.text, 'lxml') return soup.find('input',attrs = {'name': 'SAMLResponse'})['value'] resp = '<html code here>' print(getSamlResponse(resp)) 但是我遇到了这样的失败： File "<stdin>", line 1, in <module> File "<stdin>", line 2, in getSamlResponse AttributeError: 'str' object has no attribute 'text' 有什么想法可能是错的吗？杰克由于变量 resp 已经是一个字符串，因此无需在 .text 上使用 resp 属性。省略 .text 属性将删除 AttributeError。

python-3.x beautifulsoup

回答 1 投票 0

使用 Beautiful Soup 抓取维基百科表，但没有返回 'None'

一般来说，是网络抓取和编码的新手。对于更有经验的人来说，这可能是一个简单的问题......也许不是......这里是：尝试从维基百科网络抓取表格。我已经找到了...

python web-scraping beautifulsoup wikipedia

回答 1 投票 0

无法抓取 html 中的某些文本元素

我一直在尝试使用 Beautiful Soup 网络抓取某些文本数据，但由于 HTML 代码中的格式，我似乎无法访问该文本。我一直在尝试使用 Beautiful Soup 来抓取某些文本数据，但由于 HTML 代码中的格式，我似乎无法访问该文本。 <div class="Text__TextElement-sc-if376j-0 gYdBJW encore-text-title- small" data-encore-id="text">#1</div> '#' '1' 我想要的文字是“1”。 import requests from bs4 import BeautifulSoup def position_in_top(url): r = requests.get(url) soup = BeautifulSoup(r.content, 'html.parser') results = soup.find(id='main') job_title = results.find_all(class_ ='Text__TextElement-sc-if376j-0 gYdBJW encore-text-title-small') return job_title 这是我一直用来尝试访问它的代码。该函数返回该类的所有实例，但不包括我想要的“#”或“1”。这应该有效。如果你的 div 有不同的类，你应该将它们放在一个列表中。 find_all 返回一个列表，并且可能返回多个 divs div_jobs = soup.find_all(class_=['Text__TextElement-sc-if376j-0', 'gYdBJW', 'encore-text-title-small']) for div_job in div_jobs: job_title = div_job.text[1:]

python html web-scraping beautifulsoup

回答 1 投票 0

用硒和 BS4 进行刮擦

我正在尝试从这个网站上删除一张桌子作为练习 - https://stats.paj.gr.jp/en/pub/current_en_n2.html 这里的问题是，我无法打印完整的表格。这仅返回来自...的 1 个单元格

python selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

如何使用 Beautifulsoup 删除锚标签的文本？

LUSH化妆品 ...

python html beautifulsoup

回答 2 投票 0

将星期名称更改为日期

我正在抓取一个活动网站（活动名称、日期和时间）。我在 excel 中得到的输出如下：我想将日期名称更改为实际日期，例如星期五应该是 12.03....