Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。
Python:如何将 XML 文件解析为缺少子项的 DataFrame?
我正在尝试解析 SimpleXML 文件并转换为数据帧。我的 xml 中有大约 3000 个条目,并且一些条目中缺少我需要的子项属性之一。所以数据框...
我想从大约 1000-2000 个不同的餐厅网站上抓取联系信息。几乎所有的人在主页或某种“联系”页面上都有联系信息,但没有两个
在混乱的网站上使用 Beautiful Soup 进行 Python 网页抓取
我想从这个网站上抓取以下三个数据点:%verified、FAR 的数值和 POD 的数值。 我正在尝试在 BeautifulSoup 中执行此操作,但我不练习...
我想从这个网站获取值:http://cdn.ime-co.ir/ with BeautifulSoup ,但是当我尝试导入表时值是空的。我认为禁用了 javascrip 或任何我不知道的东西。 普...
嗨,我想知道如何使用 beautifulsoup 来获取美国银行的营业时间。 例如,如果网址是 (Shattuck_Ave_94704_BERKELEY_CA/bank_branch_locations/">http://locators.bankofamer...
我正在使用 Beautiful Soup 4 来抓取页面。有一段我不想要的文本: 我正在使用 Beautiful Soup 4 来抓取页面。有一段文字我不想要: <p class="MsoNormal" style="text-align: center"><b> <span lang="EN-US" style="font-family: Arial; color: blue"> <font size="4">1 </font></span> <span lang="AR-SA" dir="RTL" style="font-family: Arial; color: blue"> <font size="4">ـ</font></span><span lang="EN-US" style="font-family: Arial; color: blue"><font size="4"> сүрә фатиһә</font></span></b></p> 它的独特之处在于它有一个标签。我已经使用 findall() 来获取所有 标签。所以现在我有一个 for 循环,例如: for el in doc.findall('p'): if el.hasChildTag('b'): break; 不幸的是bs4没有“hasChildTag”功能 也应该可以使用CSS选择器。 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors soup.select("p b") for elem in soup.findAll('p'): if elem.findChildren('b'): continue #skip the elem with "b", and continue with the loop #do stuff with the elem
如何使用 Beautiful Soup 从网站上抓取 SVG 元素?
从 bs4 导入 BeautifulSoup 导入请求 随机导入 id_url =“https://codeforces.com/profile/akash77” id_headers = { “用户代理”:'Mozilla/5.0(Windows NT 6.1Win64x...
Python + BeautifulSoup:如何从 href 属性获取完整链接?
我正在组装一个网络爬虫用于练习和学习,并发现了一些问题。我最初的思考过程是... 在给定页面上,查找所有 href 属性。如果 href 值是有效的链接...
BeautifulSoup:在html中查找特定URL并打印
好的,所以我有这个 html 页面(充满不同的 url),我想在其中获取单个 url 并打印它。 网页为:https://bdkv2.borger.dk/foa/Sider/default.aspx?fk=22&foaid=11523251 我是...
我正在使用 Beautiful Soup 尝试抓取页面。 我正在尝试遵循本教程。 我试图在提交股票代码后获取以下页面的内容: http://www....
我抓取了以下页面: http://www.nasa.gov/topics/earth/features/plains-tornadoes-20120417.html 但是我在调用时遇到了分段错误(核心转储):BeautifulSoup(page_html),其中 pag...
python:带有 BeautifulSoup 的 Google 搜索爬虫
目标:传递一个搜索字符串在 google 上搜索并抓取 url、标题和与 url 标题一起发布的小描述。 我有以下代码,目前我的代码只给出
尝试通过 venv 在 Python 中使用 Beautifulsoup4,并在使用 VSCode 时收到“ModuleNotFoundError”
我面临一个相当小的问题,我无法使用库“Beautifulsoup4”。我使用 VSCode 作为 IDE,并使用 Python 版本 3.12.2 的 Venv。每次我尝试运行我的程序时,它都会给出...
PYTHON - 如何从动态生成数据的 MarketWatch.com 中抓取股票“关键数据”。找到数据请求调用了吗?
我正在开发一个示例/个人项目,每天从网站(例如市场观察)检索特定股票的股票数据,然后将数据与其他网站(例如
如何使用Python REQUESTS和BeautifulSoup抓取基于动态JavaScript的网站?
我正在抓取 https://www.shiksha.com/b-tech/colleges/b-tech-colleges-mumbai-all 来收集大学信息。 在每所学院下方的网页上,仅给出一个课程名称,其余课程......
这篇文章对此进行了介绍:Python web scraping牵涉到带有属性的HTML标签 但我无法对此网页执行类似的操作:http://www.expatistan.com/cost-of-living/
为什么我会收到“IndexError:列表索引超出范围”? (美汤)
我试图在这里抓取一个结构与我之前的问题非常相似的表格。我刚刚更改了属性名称,但出现索引超出范围错误。这是TR: 我正在尝试在这里抓取一张表格,其结构与我之前的问题非常相似。我刚刚更改了属性名称,但出现了 index out of range 错误。这是TR: <TR VALIGN="bottom"> <TD BGCOLOR=#cc6600 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">1</FONT></TD> <TD BGCOLOR=#CC6600 ALIGN="left" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">Wachtell, Lipton</FONT></TD> <TD BGCOLOR=#CC6600 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">1 </FONT></TD> <TD BGCOLOR=#CC6600 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">9.1%</FONT></TD> <TD BGCOLOR=#FF9933 ALIGN="center" ><FONT FACE="Verdana, Arial, Helvetica, sans-serif">$3,385,000 </FONT></TD> </TR> 我正在尝试获取第一个ALIGN="left"和最后一个ALIGN="center"。但最后一行的索引给出了错误。这是我正在使用的代码: soup = BeautifulSoup(urllib.urlopen("http://www.law.com/special/professionals/amlaw/amlaw200/amlaw200_ppp.html")) rows = soup.findAll(name='tr',attrs={'valign':'bottom'}, limit=13) for row in rows: tds_left = row.findAll(name='td',attrs={'align':'left'}, limit=13) tds_center = row.findAll(name='td',attrs={'align':'center'}, limit=13) if tds_left: firm_name = tds_left[0].text if tds_center: # the following line gives an error if the index is different than 0 ppp = tds_center[0].text 谢谢! 更新 Traceback (most recent call last): File "C:\Program Files (x86)\Google\google_appengine\google\appengine\ext\webapp\_webapp25.py", line 701, in __call__ handler.get(*groups) File "C:\U\A\D\\toplawfirms.py", line 384, in get ppp = tds_center[2].text IndexError: list index out of range 更新 作为对agf评论的回应是print tds_center和for item in tds_center: print item? tds_center: [] tds_center: [] tds_center: [] tds_center: [ ] item: tds_center: [] item: tds_center: [Rank By Profits Per Partner, Rank By Revenue Per Lawyer, Change In Profits per Partner from 1998, Profits Per Partner] item: Rank By Profits Per Partner item: Rank By Revenue Per Lawyer item: Change In Profits per Partner from 1998 item: Profits Per Partner tds_center: [1, 1 , 9.1%, $3,385,000 ] item: 1 item: 1 item: 9.1% item: $3,385,000 tds_center: [2, 2 , 5.0%, $3,055,000 ] item: 2 item: 2 item: 5.0% item: $3,055,000 tds_center: [3, 4 , 2.9%, $2,110,000 ] item: 3 item: 4 item: 2.9% item: $2,110,000 tds_center: [4, 3 , 8.7%, $1,790,000 ] item: 4 item: 3 item: 8.7% item: $1,790,000 tds_center: [5, 9 , 6.9%, $1,710,000 ] item: 5 item: 9 item: 6.9% item: $1,710,000 tds_center: [6, 6 , 10.8%, $1,655,000 ] item: 6 item: 6 item: 10.8% item: $1,655,000 tds_center: [7, 5 , 5.1%, $1,610,000 ] item: 7 item: 5 item: 5.1% item: $1,610,000 我修改了以下代码中获取最后一个“中心”td 的方式: import urllib from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib.urlopen("http://www.law.com/special/professionals/amlaw/amlaw200/amlaw200_ppp.html")) rows = soup.findAll(name='tr',attrs={'valign':'bottom'}, limit=13) for row in rows: tds_left = row.findAll(name='td',attrs={'align':'left'}, limit=13) tds_center = row.findAll(name='td',attrs={'align':'center'}, limit=13) if tds_left: firm_name = tds_left[0].text print firm_name if tds_center: # get last td "center" ppp = tds_center[-1].text print ppp 并得到以下结果: Firm Profits PerPartner Wachtell, Lipton $3,385,000 Robins, Kaplan $3,055,000 Cravath $2,110,000 Sullivan & Cromwell $1,790,000 Cahill Gordon $1,710,000 Simpson Thacher $1,655,000 Davis Polk $1,610,000 回溯与代码不对应。 回溯: ppp = tds_center[2].text 您的代码: ppp = tds_center[0].text 代码的结果输出有效,但看起来不是很有趣,John Keyes 有更有趣的输出,但具有 [-1] 值。 这取决于您的需求。
我正在尝试使用 python Windmill 框架从网页上抓取数据。但是,我在从页面获取 HTML 表格内容时遇到问题。该表是由 Javascript 生成的 - 因此...
可能的重复: 在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 我正在尝试使用 Python 抓取网站。我导入并使用 urllib2、BeautifulSoup 和 re 模块。 回复...
beautifulSoup 屏幕抓取不正确嵌套的列表 <ul>s
我对 BeautifulSoup 非常陌生,在过去的三天里,我试图从 http://www.ucanews.com/diocesan-directory/html/ordinary-of-philippine-cagayandeoro 获取教堂列表-parishes.html。 ...