通过URL的列表循环并刮去TSPAN元素[关闭]

Question

我不知道是否有通过网址列表的方式来循环，并从每一个，进口的HTML元素命名为“TSPAN”。

我怎样才能做到这一点？非常感谢。

Answer 1

您可以使用BeautifulSoup如果您已经下载页面的html源。否则，利用urllib.request.urlopen来获取页面的源代码。

from bs4 import BeautifulSoup as bs

html = """
<div>
    <g transform="translate(-128.8249969482422,-7.941666603088379)"> 
        <text text-anchor="left" style="; fill:#000;"> 
            <tspan dy="1em" </tspan> 
    </text> 
    </g>
    <g transform="translate(-128.8249969482422,-7.941666603088379)"> 
        <text text-anchor="left" style="; fill:#000;"> 
            <tspan dy="1em" 2</tspan> 
    </text> 
    </g>
</div>"""

soup = bs(html)

tspans = soup.find_all("tspan")
tspans
[<tspan dy="1em" x="1"></tspan>,
 <tspan dy="1em" x="1"></tspan>]

texts = [tspan.text for tspan in tspans]
texts

通过URL的列表循环并刮去TSPAN元素[关闭]

问题描述投票：-1回答：1

1个回答

最新问题

通过URL的列表循环并刮去TSPAN元素[关闭]

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1