Python Regex Webcrawling,获得Double结果,只需一个

问题描述 投票:0回答:1

我正在研究一个基本的python网络爬虫程序,以进入网站并阅读电子邮件地址,并将其显示为输出。我得到正确的答案,但它正在重复。您能帮忙解决吗?

这里是程序:

from re import findall
import urllib.request

url = "https://www.uta.edu/academics/schools-colleges/business/admissions-and-advising/cob-advising"

print("Email addresses for advisors:")

response = urllib.request.urlopen(url)

html = response.read()

htmlStr = html.decode()

pdata = findall(r"[A-Za-z0-9._%+-]+"
                     r"@[A-Za-z0-9.-]+"
                     r"\.[A-Za-z]{2,4}", htmlStr)

for item in pdata:
    print(item)
python regex web-crawler findall
1个回答
0
投票

html文件中有两封电子邮件(在文本顶部,href属性中有一个副本)。标准方法是使用解析器仅获取html的内容,而不获取属性。但是在这里,最简单的方法是打印所有其他元素:

for item in pdata[::2]:
    print(item)
© www.soinside.com 2019 - 2024. All rights reserved.