我不知道是否有通过网址列表的方式来循环,并从每一个,进口的HTML元素命名为“TSPAN”。
我怎样才能做到这一点?非常感谢。
您可以使用BeautifulSoup
如果您已经下载页面的html
源。否则,利用urllib.request.urlopen
来获取页面的源代码。
from bs4 import BeautifulSoup as bs
html = """
<div>
<g transform="translate(-128.8249969482422,-7.941666603088379)">
<text text-anchor="left" style="; fill:#000;">
<tspan dy="1em" </tspan>
</text>
</g>
<g transform="translate(-128.8249969482422,-7.941666603088379)">
<text text-anchor="left" style="; fill:#000;">
<tspan dy="1em" 2</tspan>
</text>
</g>
</div>"""
soup = bs(html)
tspans = soup.find_all("tspan")
tspans
[<tspan dy="1em" x="1"></tspan>,
<tspan dy="1em" x="1"></tspan>]
texts = [tspan.text for tspan in tspans]
texts