非常感谢您帮助我的努力!我正在尝试我的一些小型刮削项目。我有一个来自网页的链接列表,现在我想只选择与导航产品相关的链接。
我想知道有没有办法从阵列中选择名称中包含“product”的所有链接。例如,我想要网站导航中包含单词“blog”的所有链接。
欣赏答案。
我建议使用Beautiful Soup library。假设您要抓取的网站存储为html
,您可以执行以下操作:
b = BeautifulSoup(html, 'lxml')
links = [i['href'] for i in b.find_all('a') if "blog" in i['href']]
这将列出页面上每个链接的href
标记,然后筛选包含字符串blog
的元素的列表。