我正在研究一个基本的python网络爬虫程序,以进入网站并阅读电子邮件地址,并将其显示为输出。我得到正确的答案,但它正在重复。您能帮忙解决吗?
这里是程序:
from re import findall
import urllib.request
url = "https://www.uta.edu/academics/schools-colleges/business/admissions-and-advising/cob-advising"
print("Email addresses for advisors:")
response = urllib.request.urlopen(url)
html = response.read()
htmlStr = html.decode()
pdata = findall(r"[A-Za-z0-9._%+-]+"
r"@[A-Za-z0-9.-]+"
r"\.[A-Za-z]{2,4}", htmlStr)
for item in pdata:
print(item)
html文件中有两封电子邮件(在文本顶部,href属性中有一个副本)。标准方法是使用解析器仅获取html的内容,而不获取属性。但是在这里,最简单的方法是打印所有其他元素:
for item in pdata[::2]:
print(item)