使用Beautiful Soup提取链接的等效正则表达式

Question

我试图通过python随机探索Webscrapping。我有谷歌搜索结果页面的链接。我使用url lib来提取GOOGLE SEARCH RESULT PAGE中存在的所有链接。从谷歌的解析页面我在Beautiful Soup库的帮助下提取所有可能的锚标签。所以现在我有很多链接。在那些我想选择符合我所需模式的选定链接。示例我想选择所有这些行：这是解析的许多链接之一。但我想缩小像这样的链接的结果

/url?q=http://avadl.uploadt.com/DL4/Film/&sa=U&ved=0ahUKEwiYwOKe1r7hAhWUf30KHcHUBkMQFggUMAA&usg=AOvVaw39cIJ0T8_CAQMY8EkSWZJl

在这些选择中，我只需要提取这一部分

http://avadl.uploadt.com/DL4/Film/

我试过这个和这个

possible_websites.append(re.findall('/url?q=(\S+)',links))
possible_websites.append(re.findall('/url?q=(\S+^&)',links))

这是我的代码

soup = BeautifulSoup(webpage, 'html.parser')
tags = soup('a')
possible_websites=[]
for tag in tags:
    links = tag.get('href', None)
    possible_websites.append(re.findall('/url?q=(\S+)',links))

我想使用正则表达式来提取所需的文本部分。我正在使用Beautiful soup模块来提取HTML数据。简而言之，这是一个非常规的问题。

Answer 1

如果你真的需要正则表达式，请使用q=(.*/)&，否则请使用Ry-'s answer，即：

import re
u = "/url?q=http://avadl.uploadt.com/DL4/Film/&sa=U&ved=0ahUKEwiYwOKe1r7hAhWUf30KHcHUBkMQFggUMAA&usg=AOvVaw39cIJ0T8_CAQMY8EkSWZJl"
m = re.findall("q=(.*/)&", u)
if m:
    print(m[0])
    # http://avadl.uploadt.com/DL4/Film/

Demo

Answer 2

这不是正则表达式，但我会使用urllib：

from urllib.parse import parse_qs, urlparse

url = urlparse('/url?q=http://avadl.uploadt.com/DL4/Film/&sa=U&ved=0ahUKEwiYwOKe1r7hAhWUf30KHcHUBkMQFggUMAA&usg=AOvVaw39cIJ0T8_CAQMY8EkSWZJl')
qs = parse_qs(url.query)

print(qs['q'][0])

使用Beautiful Soup提取链接的等效正则表达式

问题描述投票：1回答：2

2个回答

最新问题

使用Beautiful Soup提取链接的等效正则表达式

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2