有没有办法过滤beautifulsoup find_all结果，限制为.jpeg，但不是其他格式？

Question

我想从论坛上获取一些图片。 find_all结果给了我最想要的东西，即jpeg文件。但它也给了我一些我不想要的gif文件。另一个问题是gif文件是一个附件，而不是一个有效的链接，它在我保存文件时会造成麻烦。

soup_imgs = soup.find(name='div', attrs={'class':'t_msgfont'}).find_all('img', alt="")
for i in soup_imgs:
    src = i['src']
    print(src)

我试图在我的find_all选择搜索中避免使用gif文件，但没用，jpeg和gif文件都在同一部分。我应该怎么做才能过滤我的结果呢？请给我一些帮助，首席。我非常喜欢编码。玩Python只是我的一个爱好。

Answer 1

您可以通过正则表达式过滤它。请参阅以下示例。希望这有帮助。

import re
from bs4 import BeautifulSoup

data='''<html>
<body>

<h2>List of images</h2>

<div class="t_msgfont">
<img src="img_chania.jpeg" alt="" width="460" height="345">
<img src="wrongname.gif" alt="">
<img src="img_girl.jpeg" alt="" width="500" height="600">
</div>
</body>
</html>'''

soup=BeautifulSoup(data, "html.parser")
soup_imgs = soup.find('div', attrs={'class':'t_msgfont'}).find_all('img', alt="" ,src=re.compile(".jpeg"))
for i in soup_imgs:
    src = i['src']
    print(src)

Answer 2

尝试以下我怀疑你可以缩短。它使用带有运算符（$）的结尾来指定子img元素的src属性值以.jpg结尾（根据OP的评论从jpeg编辑为jpg，它实际上是jpg）

srcs = [item['src'] for item in soup.select("div.t_msgfont img[alt=''][src$='.jpg']")]

看看缩短选择器（我不能没有看到有问题的HTML），你可能会侥幸逃脱

srcs = [item['src'] for item in soup.select(".t_msgfont [alt=''][src$='.jpg']")]

甚至

srcs = [item['src'] for item in soup.select(".t_msgfont [src$='.jpg']")]

Answer 3

我建议你使用requests-html来查找页面中的图像资源。与BeautifulSoup + requests相比，它非常简单。

这是执行此操作的代码。

from requests_html import HTMLSession
session = HTMLSession()
resp = session.get(url)
for i in resp.html.absolute_links:
    if i.endswith('.jpeg'):
        print(i)

有没有办法过滤beautifulsoup find_all结果，限制为.jpeg，但不是其他格式？

问题描述投票：1回答：3

3个回答

最新问题

有没有办法过滤beautifulsoup find_all结果，限制为.jpeg，但不是其他格式？

问题描述 投票：1回答：3

3个回答

最新问题

问题描述投票：1回答：3