beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

Python:如何将 XML 文件解析为缺少子项的 DataFrame?

我正在尝试解析 SimpleXML 文件并转换为数据帧。我的 xml 中有大约 3000 个条目,并且一些条目中缺少我需要的子项属性之一。所以数据框...

回答 1 投票 0

使用 Python 从多个独特网站中抓取联系信息

我想从大约 1000-2000 个不同的餐厅网站上抓取联系信息。几乎所有的人在主页或某种“联系”页面上都有联系信息,但没有两个

回答 2 投票 0

在混乱的网站上使用 Beautiful Soup 进行 Python 网页抓取

我想从这个网站上抓取以下三个数据点:%verified、FAR 的数值和 POD 的数值。 我正在尝试在 BeautifulSoup 中执行此操作,但我不练习...

回答 3 投票 0

使用Python进行网页抓取,但值为空

我想从这个网站获取值:http://cdn.ime-co.ir/ with BeautifulSoup ,但是当我尝试导入表时值是空的。我认为禁用了 javascrip 或任何我不知道的东西。 普...

回答 1 投票 0

如何查询美国银行的营业时间?

嗨,我想知道如何使用 beautifulsoup 来获取美国银行的营业时间。 例如,如果网址是 (Shattuck_Ave_94704_BERKELEY_CA/bank_branch_locations/">http://locators.bankofamer...

回答 1 投票 0

美丽的汤检查标签中的标签

我正在使用 Beautiful Soup 4 来抓取页面。有一段我不想要的文本: 我正在使用 Beautiful Soup 4 来抓取页面。有一段文字我不想要: <p class="MsoNormal" style="text-align: center"><b> <span lang="EN-US" style="font-family: Arial; color: blue"> <font size="4">1 </font></span> <span lang="AR-SA" dir="RTL" style="font-family: Arial; color: blue"> <font size="4">&#1600;</font></span><span lang="EN-US" style="font-family: Arial; color: blue"><font size="4"> с&#1199;р&#1241; фати&#1211;&#1241;</font></span></b></p> 它的独特之处在于它有一个标签。我已经使用 findall() 来获取所有 标签。所以现在我有一个 for 循环,例如: for el in doc.findall('p'): if el.hasChildTag('b'): break; 不幸的是bs4没有“hasChildTag”功能 也应该可以使用CSS选择器。 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors soup.select("p b") for elem in soup.findAll('p'): if elem.findChildren('b'): continue #skip the elem with "b", and continue with the loop #do stuff with the elem

回答 2 投票 0

如何使用 Beautiful Soup 从网站上抓取 SVG 元素?

从 bs4 导入 BeautifulSoup 导入请求 随机导入 id_url =“https://codeforces.com/profile/akash77” id_headers = { “用户代理”:'Mozilla/5.0(Windows NT 6.1Win64x...

回答 4 投票 0

Python + BeautifulSoup:如何从 href 属性获取完整链接?

我正在组装一个网络爬虫用于练习和学习,并发现了一些问题。我最初的思考过程是... 在给定页面上,查找所有 href 属性。如果 href 值是有效的链接...

回答 3 投票 0

BeautifulSoup:在html中查找特定URL并打印

好的,所以我有这个 html 页面(充满不同的 url),我想在其中获取单个 url 并打印它。 网页为:https://bdkv2.borger.dk/foa/Sider/default.aspx?fk=22&foaid=11523251 我是...

回答 2 投票 0

用美丽的汤抓取页面时遇到问题

我正在使用 Beautiful Soup 尝试抓取页面。 我正在尝试遵循本教程。 我试图在提交股票代码后获取以下页面的内容: http://www....

回答 1 投票 0

beautifulsoup 4:分段错误(核心已转储)

我抓取了以下页面: http://www.nasa.gov/topics/earth/features/plains-tornadoes-20120417.html 但是我在调用时遇到了分段错误(核心转储):BeautifulSoup(page_html),其中 pag...

回答 2 投票 0

python:带有 BeautifulSoup 的 Google 搜索爬虫

目标:传递一个搜索字符串在 google 上搜索并抓取 url、标题和与 url 标题一起发布的小描述。 我有以下代码,目前我的代码只给出

回答 3 投票 0

尝试通过 venv 在 Python 中使用 Beautifulsoup4,并在使用 VSCode 时收到“ModuleNotFoundError”

我面临一个相当小的问题,我无法使用库“Beautifulsoup4”。我使用 VSCode 作为 IDE,并使用 Python 版本 3.12.2 的 Venv。每次我尝试运行我的程序时,它都会给出...

回答 1 投票 0

PYTHON - 如何从动态生成数据的 MarketWatch.com 中抓取股票“关键数据”。找到数据请求调用了吗?

我正在开发一个示例/个人项目,每天从网站(例如市场观察)检索特定股票的股票数据,然后将数据与其他网站(例如

回答 2 投票 0

如何使用Python REQUESTS和BeautifulSoup抓取基于动态JavaScript的网站?

我正在抓取 https://www.shiksha.com/b-tech/colleges/b-tech-colleges-mumbai-all 来收集大学信息。 在每所学院下方的网页上,仅给出一个课程名称,其余课程......

回答 1 投票 0

Python 网页抓取;美丽的汤

这篇文章对此进行了介绍:Python web scraping牵涉到带有属性的HTML标签 但我无法对此网页执行类似的操作:http://www.expatistan.com/cost-of-living/

回答 3 投票 0

为什么我会收到“IndexError:列表索引超出范围”? (美汤)

我试图在这里抓取一个结构与我之前的问题非常相似的表格。我刚刚更改了属性名称,但出现索引超出范围错误。这是TR: 我正在尝试在这里抓取一张表格,其结构与我之前的问题非常相似。我刚刚更改了属性名称,但出现了 index out of range 错误。这是TR: <TR VALIGN="bottom"> <TD BGCOLOR=#cc6600 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">1</FONT></TD> <TD BGCOLOR=#CC6600 ALIGN="left" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">Wachtell, Lipton</FONT></TD> <TD BGCOLOR=#CC6600 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">1 </FONT></TD> <TD BGCOLOR=#CC6600 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">9.1%</FONT></TD> <TD BGCOLOR=#FF9933 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">$3,385,000 </FONT></TD> </TR> 我正在尝试获取第一个ALIGN="left"和最后一个ALIGN="center"。但最后一行的索引给出了错误。这是我正在使用的代码: soup = BeautifulSoup(urllib.urlopen("http://www.law.com/special/professionals/amlaw/amlaw200/amlaw200_ppp.html")) rows = soup.findAll(name='tr',attrs={'valign':'bottom'}, limit=13) for row in rows: tds_left = row.findAll(name='td',attrs={'align':'left'}, limit=13) tds_center = row.findAll(name='td',attrs={'align':'center'}, limit=13) if tds_left: firm_name = tds_left[0].text if tds_center: # the following line gives an error if the index is different than 0 ppp = tds_center[0].text 谢谢! 更新 Traceback (most recent call last): File "C:\Program Files (x86)\Google\google_appengine\google\appengine\ext\webapp\_webapp25.py", line 701, in __call__ handler.get(*groups) File "C:\U\A\D\\toplawfirms.py", line 384, in get ppp = tds_center[2].text IndexError: list index out of range 更新 作为对agf评论的回应是print tds_center和for item in tds_center: print item? tds_center: [] tds_center: [] tds_center: [] tds_center: [ ] item: tds_center: [] item: tds_center: [Rank By Profits Per Partner, Rank By Revenue Per Lawyer, Change In Profits per Partner from 1998, Profits Per Partner] item: Rank By Profits Per Partner item: Rank By Revenue Per Lawyer item: Change In Profits per Partner from 1998 item: Profits Per Partner tds_center: [1, 1 , 9.1%, $3,385,000 ] item: 1 item: 1 item: 9.1% item: $3,385,000 tds_center: [2, 2 , 5.0%, $3,055,000 ] item: 2 item: 2 item: 5.0% item: $3,055,000 tds_center: [3, 4 , 2.9%, $2,110,000 ] item: 3 item: 4 item: 2.9% item: $2,110,000 tds_center: [4, 3 , 8.7%, $1,790,000 ] item: 4 item: 3 item: 8.7% item: $1,790,000 tds_center: [5, 9 , 6.9%, $1,710,000 ] item: 5 item: 9 item: 6.9% item: $1,710,000 tds_center: [6, 6 , 10.8%, $1,655,000 ] item: 6 item: 6 item: 10.8% item: $1,655,000 tds_center: [7, 5 , 5.1%, $1,610,000 ] item: 7 item: 5 item: 5.1% item: $1,610,000 我修改了以下代码中获取最后一个“中心”td 的方式: import urllib from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib.urlopen("http://www.law.com/special/professionals/amlaw/amlaw200/amlaw200_ppp.html")) rows = soup.findAll(name='tr',attrs={'valign':'bottom'}, limit=13) for row in rows: tds_left = row.findAll(name='td',attrs={'align':'left'}, limit=13) tds_center = row.findAll(name='td',attrs={'align':'center'}, limit=13) if tds_left: firm_name = tds_left[0].text print firm_name if tds_center: # get last td "center" ppp = tds_center[-1].text print ppp 并得到以下结果: Firm Profits PerPartner Wachtell, Lipton $3,385,000 Robins, Kaplan $3,055,000 Cravath $2,110,000 Sullivan &amp; Cromwell $1,790,000 Cahill Gordon $1,710,000 Simpson Thacher $1,655,000 Davis Polk $1,610,000 回溯与代码不对应。 回溯: ppp = tds_center[2].text 您的代码: ppp = tds_center[0].text 代码的结果输出有效,但看起来不是很有趣,John Keyes 有更有趣的输出,但具有 [-1] 值。 这取决于您的需求。

回答 2 投票 0

Windmill 未获取所有 html 内容

我正在尝试使用 python Windmill 框架从网页上抓取数据。但是,我在从页面获取 HTML 表格内容时遇到问题。该表是由 Javascript 生成的 - 因此...

回答 1 投票 0

如何去掉像 ' 这样的字符而不是撇号? [重复]

可能的重复: 在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 我正在尝试使用 Python 抓取网站。我导入并使用 urllib2、BeautifulSoup 和 re 模块。 回复...

回答 1 投票 0

beautifulSoup 屏幕抓取不正确嵌套的列表 <ul>s

我对 BeautifulSoup 非常陌生,在过去的三天里,我试图从 http://www.ucanews.com/diocesan-directory/html/ordinary-of-philippine-cagayandeoro 获取教堂列表-parishes.html。 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.