beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

抓取多个页面具有相同网址的网站？页面跳转是ajax请求

我已经这样做好几天了，我正在尝试抓取这个网站：“https://careers.ispor.org/jobseeker/search/results/” 我已经涵盖了从提取

python ajax selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

来自 UniProt 数据库的网页抓取表

我有一个 UniProt ID 列表，想使用 BeautifulSoup 废弃包含结构信息的表。我使用的网址如下：https://www.uniprot.org/uniprot/P03496，带有

python python-3.x web-scraping beautifulsoup

回答 2 投票 0

R / Python 中的网页抓取

我需要从 https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx?PageLang=En 提取数据。我需要 4 列 -“姓名”、“性别”、“职称”、“医院名称”、“联系方式”。 ”

python web-scraping beautifulsoup scrapy rvest

回答 2 投票 0

如何使用 beautiful soup 从 HTML 中提取带有 ::marker 的标签

我正在尝试使用 BeautifulSoup 查找具有 :: 标记的 li 元素，如下所示。我尝试使用 cssutils 但不成功（也许我使用错误）伪代码： lis = soup_obj.find_...

python html beautifulsoup

回答 3 投票 0

无法抓取所有评论

我正在尝试抓取这个网站并尝试获得评论，但我遇到了一个问题，该页面仅加载 50 条评论。要加载更多内容，您必须单击“显示更多评论”，但我不...

python python-3.x beautifulsoup request

回答 1 投票 0

为什么我的代码只删除产品评论的第一页？

我正在这个网站上抓取产品评论” https://www.lazada.com.my/products/xiaomi-mi-a1-4gb-ram-32gb-rom-i253761547-s336359472.html?spm=a2o4k.searchlistcategory.list.64.71546883QBZiNT&

python selenium-webdriver beautifulsoup

回答 2 投票 0

使用 BeautifulSoup 提取两个 h1 标签之间的数据

美汤：提取两个标签之间的所有内容我正在使用 BeautifulSoup 提取两个特定 HTML 标签之间的内容。这些标签没有任何特定的属性或 ID，而且我...

python html beautifulsoup html-tag-summary

回答 2 投票 0

使用 python 进行多个类的网页抓取

我正在尝试从 HTML 格式的 10K 归档文件中抓取地址：https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm 它有多个 div 类，我想抓取...

python web-scraping web beautifulsoup edgar

回答 2 投票 0

如何修复 python 中的“TypeError: 'NoneType' object is not callable”

当我尝试运行这个简单的 python 网页抓取程序（如下所示）时，我收到错误“TypeError：‘NoneType’对象不可调用”。我该如何解决这个问题？从 bs4 导入美丽...

python web-scraping beautifulsoup python-requests typeerror

回答 1 投票 0

使用 BeautifulSoup 抓取第一个表时出现 HTTP 错误 404，但第二个表工作正常

我正在编写一个 Python 脚本，使用 BeautifulSoup 从 Investing.com 抓取历史 CDS 数据。目标是从页面上的特定表中提取数据并将其编译成 DataFrame。哈...

python beautifulsoup python-requests finance

回答 1 投票 0

使用 Selenium 在 Python 中进行网页抓取自动化的问题

我的 ETL 流程遇到问题。让我解释一下我的问题，我有这段代码：导入时间从硒导入网络驱动程序从 selenium.webdriver.common.by 导入将 pandas 导入为 pd 导入

python selenium-webdriver beautifulsoup etl

回答 1 投票 0

selenium 的驱动程序在 python 中获取错误页面

我正在努力为足球锦标赛争取一定的赔率。为此，我编写了一段代码，它首先生成我想要的确切链接，然后加载相应的页面。问题是，...

python selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

在尝试使用 beautiful soup 抓取数据时，我不断收到“远程主机强制关闭现有连接”的消息。（Python 3.8.5）

我正在尝试从 zacks.com 抓取数据，但在程序运行之前，我收到“ConnectionResetError：[WinError 10054]现有连接被远程主机强制关闭。&qu...

python beautifulsoup

回答 1 投票 0

使用firefox selenium抓取无限滚动的页面，导致错误，可能是由于数据太多

我正在尝试在聚会上使用无限滚动来抓取此页面以获取过去事件的列表。我想要获取事件列表，包括名称、日期和 URL（大部分只是名称，其他 2 个是可选的）。

python selenium-webdriver beautifulsoup

回答 1 投票 0

如何使用Python抓取所有评论产品

现在我正在这个网站上做刮评产品 https://www.lazada.com.my/products/xiaomi-mi-a1-4gb-ram-32gb-rom-i253761547-s336359472.html?spm=a2o4k.searchlistcategory.list.64.71546883QBZ...

python selenium web-scraping beautifulsoup

回答 3 投票 0

漂亮的汤 - 想要比较 XML 中每个父元素的特定子元素的长度

我有一个庞大的 XML 文档，我想解析它，对于每个特定元素，我想检查所有子元素的电子邮件地址，如果找到一个，则计算长度。 XML 做...

python xml beautifulsoup

回答 1 投票 0

如何在 beautifulsoup 中获取文本作为 .innerText 而不是 JS 中的 .textContent

我有一个 HTML 文件，其中包含 p 标记内的文本，如下所示： Lorem ipsum dolor sat amet， consectetur adipiscing elit。 Maecenas sed mi lacu... 我有一个 HTML 文件，其中包含 p 标记内的文本，如下所示： <body> Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat </body> 使用 Python 和 BeautifulSoup 我尝试获取 p 标签中的文本，例如： with open("foo.html", 'r', encoding='utf-8') as f: soup = BeautifulSoup(f.read(), 'lxml') p = soup.p print(p.text) 结果： 'Lorem ipsum dolor sit amet, \n\t\tconsectetur adipiscing elit. \n\t\tMaecenas sed mi lacus. \n\t\tVivamus luctus vehicula lacus, \n\t\tut malesuada justo posuere et. \n\t\tDonec ut diam volutpat' 问题是我将结果与并出现在原始文件中（如 JS 中的 .textContent）。我需要一个类似于 JS 中的 .innerText 的解决方案，它返回用户在浏览器中看到的内容。我尝试使用p.text.replace("\n", " ").replace("\t", "")但是对于更复杂的事情，比如标签中的标签，它根本不起作用（比如不必要的空格）。有人知道如何做到这一点吗？预先感谢！如果我理解正确的话，您可以使用正则表达式来更改文本。考虑这个例子： from bs4 import BeautifulSoup html_text = """\ <body> Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat </body>""" soup = BeautifulSoup(html_text, "html.parser") print(soup.p.text) 打印： Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat 你可以这样做： import re print(re.sub(r"\s{2,}", " ", soup.p.text)) 这会响起： Lorem ipsum dolor sit amet, consectetur adipiscing elit. Maecenas sed mi lacus. This is inner span. Vivamus luctus vehicula lacus, ut malesuada justo posuere et. Donec ut diam volutpat

python html python-3.x web-scraping beautifulsoup

回答 1 投票 0

需要 Python 中的网络抓取 lambda 函数的解释

我正在用Python进行网页抓取，我发现了这个：产品 = soup.find_all('li') 产品列表 = [] 对于产品中的产品：名称 = 产品.h2.字符串价格 = 产品.find('p', string=l...

python web-scraping beautifulsoup lambda

回答 1 投票 0

使用 Python BeautifulSoup 进行网页抓取

我想通过使用Python BeautifulSoup从网站上进行网页抓取来收集数据，用于我的数据分析项目。我想从网站收集的数据；日期: 06.07.2027 舞台：伯格海恩，

python html web-scraping beautifulsoup

回答 1 投票 0

想用Selenium刮擦但网页认为我是机器人

想用 Selenium 进行抓取，但网页（Cloudflare）认为我是一个机器人。我尝试添加选项、无头、等待特定 ID 出现，但网页从未完全加载。怎么...