通过URL的列表循环并刮去TSPAN元素[关闭]

问题描述 投票:-1回答:1

我不知道是否有通过网址列表的方式来循环,并从每一个,进口的HTML元素命名为“TSPAN”。

我怎样才能做到这一点?非常感谢。

python python-2.7
1个回答
1
投票

您可以使用BeautifulSoup如果您已经下载页面的html源。否则,利用urllib.request.urlopen来获取页面的源代码。

from bs4 import BeautifulSoup as bs

html = """
<div>
    <g transform="translate(-128.8249969482422,-7.941666603088379)"> 
        <text text-anchor="left" style="; fill:#000;"> 
            <tspan dy="1em" </tspan> 
    </text> 
    </g>
    <g transform="translate(-128.8249969482422,-7.941666603088379)"> 
        <text text-anchor="left" style="; fill:#000;"> 
            <tspan dy="1em" 2</tspan> 
    </text> 
    </g>
</div>"""

soup = bs(html)

tspans = soup.find_all("tspan")
tspans
[<tspan dy="1em" x="1"></tspan>,
 <tspan dy="1em" x="1"></tspan>]

texts = [tspan.text for tspan in tspans]
texts
© www.soinside.com 2019 - 2024. All rights reserved.