Python Regex Webcrawling，获得Double结果，只需一个

Question

我正在研究一个基本的python网络爬虫程序，以进入网站并阅读电子邮件地址，并将其显示为输出。我得到正确的答案，但它正在重复。您能帮忙解决吗？

这里是程序：

from re import findall
import urllib.request

url = "https://www.uta.edu/academics/schools-colleges/business/admissions-and-advising/cob-advising"

print("Email addresses for advisors:")

response = urllib.request.urlopen(url)

html = response.read()

htmlStr = html.decode()

pdata = findall(r"[A-Za-z0-9._%+-]+"
                     r"@[A-Za-z0-9.-]+"
                     r"\.[A-Za-z]{2,4}", htmlStr)

for item in pdata:
    print(item)

Answer 1

html文件中有两封电子邮件（在文本顶部，href属性中有一个副本）。标准方法是使用解析器仅获取html的内容，而不获取属性。但是在这里，最简单的方法是打印所有其他元素：

for item in pdata[::2]:
    print(item)

Python Regex Webcrawling，获得Double结果，只需一个

问题描述投票：0回答：1

1个回答

最新问题

Python Regex Webcrawling，获得Double结果，只需一个

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1