Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。
我是一名初学者,第一次尝试使用这些工具在 Jupyter Notebook 中抓取网站。 我的大部分代码都是基于示例,我不能声称我有深刻的理解...... 我正在努力...
我有以下网页 我有以下网页 </div><a href="https://www.emag.ro/laptop-lenovo-thinkbook-15-iil-cu-procesor-intel-core-i7-1065g7-pana-la-3-90-ghz-15-6-full-hd-16gb-512gb-ssd-intel-iris-plus-graphics-free-dos-mineral-grey-20sm003jrm/pd/DKBK1TMBM/#reviews-section" rel="nofollow" class="star-rating-container js-product-url" data-zone="reviews"><div class="star-rating star-rating-read rated-4.02 star-rating-sm "> <div class="star-rating-inner " style="width: 100%"></div> </div><div class="star-rating-text "> 我想提取该产品的评级。 对于本产品,评级在此处定义。 <div class="star-rating star-rating-read rated-4.02 star-rating-sm "> 我无法提取4.02。 我的代码看起来像: rating = container.find_all(class_="star-rating star-rating-read rated")[0].text 我知道上面的代码不行,我能够提取产品的价格和名称,但无法提取评级:( 这是一个您可以尝试的解决方案, import re # regex extract the decimal digits from string extract_ = re.compile(r"\d+.\d+") for div in container.find_all("div", attrs={"class": 'star-rating'}): for attr in div.attrs['class']: ratings_ = extract_.search(attr) if ratings_: print(ratings_.group()) # 4.02 尝试这样的事情: rating = str(container.find_all(class_="star-rating")[0]) rindex = rating.index("rated") print(rating[rindex+6:rindex+10])
类型错误:描述符“split”需要“str”对象,但收到“bytes”
我正在尝试使用 Github 上提供的 python 脚本从 ESPN Cricinfo 中抓取数据。代码如下。 导入 urllib.request 作为 ur 导入 csv 导入系统 导入时间 导入操作系统 导入
我有 500 个指数的列表。我试图为每个索引提取相应的公司名称。我对每个项目使用一个简单的请求: url = 'https://www.nasdaq.com/markey-activity/
从 Dailyfx.com 抓取/解析外汇 EurUsd 时,为什么 txt 文件中的值消失了?
我正在尝试解析来自 Dailyfx.com 的外汇 EurUsd 值。我可以在那里看到我想要的值,但是当我抓取/解析它时,我在 txt 文件中得到了值“--”。 这是在 dailyfx.com 上: d...
任何人都可以帮助我使用 beautifulsoup 将风味和品牌详细信息作为关键值对。我是新来的: 期望的输出是 口味 - 青苹果 品牌-Carabau html 看起来像...
我正在尝试从 https://store.steampowered.com/newshub/app/1145360 抓取所有更新说明。我用“eventcalendar_CalendarRow_398u2”类识别了更新注释并编写了 cod...
我正在学习Python。我正在尝试编写一个脚本,该脚本将从网页上的表格的某些单元格中抓取关键数据,忽略我不感兴趣的其他单元格。 我写的剧本是如此...
我正在尝试抓取Google搜索结果,但我得到的输出只是空列表。你知道这里出了什么问题吗?我在 Stack Overflow 上找到了类似的帖子,其中解决方案说你......
我有selenium beautifulsoup自动化脚本,可以使用应用程序密码访问域电子邮件,例如outlook,gmail,aol,yahoo ...。 我想提取(设备 IMEI 号码:)和(请求号码:)
我试图从https://fxtop.com/en/historical-exchange-rates.php?A=1&C1=USD&C2=IDR&MA=1&DD1=&MM1=08&YYYY1=1995&B=1&P=&I=1&DD2=23&MM2中抓取表格=07&...
我无法从该网站抓取域名?当我调用response.json()时,Postman返回json()但通过异常请求
我想从以下网站抓取域名和社交链接(linkedin、twitter)电子邮件。 https://cloud28plus.com/en/partner/resecurity--inc- 我尝试从网络请求中获取数据...
我正在尝试使用 beautifulsoup 抓取 NHL 比赛的结果,但我无法弄清楚如何获取比赛进行的日期和按顺序排列的结果。比赛日期是你...
使用 beautifulsoup4 和 urllib3 抓取表格 html 多页
请帮助我,, 我制作的代码仅适用于一页,我希望它适用于所有页面。我应该怎么办? 导入 csv 导入 urllib3 从 bs4 导入 BeautifulSoup outfile = open("data.csv","w",newline='...
如何使用BeautifulSoup python查找选择标签的选定选项值
我试图从Python中的html选择标签中获取选定的值。好吧,当选项属性设置为 selected="selected" 时它是成功的,但我试图废弃的网站有差异...
问的问题很简单,但是对于我来说,行不通,我也不知道! 我想从此页面上刮掉评级啤酒 https://www.brewersfriend.com/homebrew/recipe/view/16367/southern-tier-
如何使用 BS4 抓取这些数据?我使用 html.parser 没有成功。 我的代码是: 对于页中的页: 页面= cat[1] + "?s=%3Arelevance&page=" + str(页面) 第 1 页 =
大家好,我正在尝试用 python 创建一个程序来比较网站上的价格,但我无法获取价格。我已经使用下面的代码成功获得了产品的标题和数量....
我,我正在尝试从 json 结构中删除每个产品的图像网址(仅 jpg 扩展名)以及“alt”中可用的名称,如(下面也提到)“属性”>“
我的抓取机器人正常工作,直到我在数据库中添加商家列。 Scraper.py 文件抓取成功商户并正确记录在数据库中,但添加商户后比较机器人不比较...