web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

为什么我尝试从 GlassDoor 抓取时状态代码为 403?

我正在尝试从玻璃门上抓取工作信息。类似的代码结构对于 LinkedIn 来说效果很好,但我在这里遇到了问题。我收到的状态代码为 403,所以我猜我遇到了一些问题......

回答 1 投票 0

Pandas read_html 自动将任意一列转换为 str

我一直在尝试从网站上抓取表格,但由于某种原因,Pandas 会自动将每一列转换为字符串,因此某些值变得完全无用。例如,0.62 因为...

回答 1 投票 0

是否可以手动停止Selenium Python中的代码以绕过验证码,然后恢复它

我使用 Selenium 和 Python 来与网络交互。是否可以以某种方式启动浏览器,然后暂停程序一段时间,比如 2 分钟,然后让其余代码运行。

回答 1 投票 0

Beautiful Soup 返回脚本语言而不是 HTML

我编写了一个Python程序来从几个购物网站上抓取数据,直到最近,该程序在这两个网站上都运行良好。 URL1 - https://www.auchan.pt/pt/alimentacao/alimentacao-bebe-e-crianca/papa-e-fa...

回答 1 投票 0

如何使用Python与javascript网页交互?

我是网络抓取的新手;我有一个从 COCA 中抓取一些数据的小项目,但我什至不知道从哪里开始。看来这个网页是使用一些 Javascript 构建的,我

回答 2 投票 0

抓取新闻时无法打印链接

我喜欢页面上相关新闻文章的标题和链接列表。我可以只打印标题,但由于某种原因,链接仍然不清晰。 这是我的Python代码...

回答 1 投票 0

使用Selenium进行迭代而不被阻塞

根据上一个问题... 我有一个需要用 Selenium 抓取的 URL 列表,但在获得第一个 URL 的结果后它总是阻止我。 这就是我正在做的: 来自选择...

回答 1 投票 0

为什么Scrapy获取不到这个html?

此包含邮政编码查询字符串的 URL 可在浏览器中正确加载搜索结果: https://www.psychotherapy.org.uk/find-a-therapy/?Location=M3%201AR&Distance=10&page=7 每个...

回答 1 投票 0

R rvest Web 抓取 JSON 格式

我正在尝试从 https://www.wheeloratings.com/tennis_wta_ ratings.html 网络抓取数据。我已经从其代码的第 367 行中获取了数据所在的确切行 查看来源:http...

回答 1 投票 0

BeautifulSoup 网络抓取 find_all( ):

我正在尝试获取绿色圆圈的时间和价格,保存它们并将数据发送到https://github.com/pedroslopez/whatsapp-web.js。 https://imgur.com/NSmNxL7 谷歌合作...

回答 1 投票 0

如何使用 jsoup 抓取 Facebook 页面帖子?

我正在尝试使用 jsoup 在 Spring boot 中抓取 Facebook 页面。 下面的方法返回一个空的 JSON: @GetMapping("/test-json") public String scrapeFacebookPageJson() 抛出 IOExcepti...

回答 1 投票 0

如何将Scrapy爬取的数据以csv或json格式上传到Amazon S3?

将Scrapy爬取的数据以csv/jsonl/json文件上传到Amazon s3的步骤是什么?我从互联网上能找到的就是将抓取的图像上传到 s3 存储桶。 我现在...

回答 4 投票 0

我无法从动态网站提取数据

这是任务的详细信息。 编写一个 Python 脚本,通过以下方式从以下网站 https://www.psychologytoday.com/us/therapyes 抓取数据 第 1 步 – 脚本将执行 1

回答 1 投票 0

Python 网页抓取:代码输出:汤未定义

我的雅虎股票网页抓取程序给我错误。 请在下面找到代码 def getdata(符号): headers= {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,如 G...

回答 1 投票 0

使用 Selenium 单击 Cookie 覆盖时出现问题

我正在尝试使用 Selenium Python 访问网站,为此,我想拒绝 cookie(或接受,此时以哪个都可以)。我在

回答 1 投票 0

无法通过网页抓取在维基百科中找到特定表格?

我正在抓取以下维基百科页面:https://en.wikipedia.org/wiki/Eurovision_Song_Contest_2022。我已经能够从此页面中抓取另一个表格,但现在我想抓取“

回答 1 投票 0

无法通过网页抓取在维基百科中找到特定表格?

我正在抓取以下维基百科页面:https://en.wikipedia.org/wiki/Eurovision_Song_Contest_2022。我已经能够从此页面中抓取另一个表格,但现在我想抓取“

回答 1 投票 0

Pyton/Selenium 代码只是跳过一些代码元素

大家好。 我希望它转到 select_page 中输入的页面并将其滚动到末尾,检查这是否是末尾,然后加载图像,然后转到另一个页面或结束,如果 end_page mat...

回答 1 投票 0

BeautifulSoup 抓取具有相同类名的标签

我是 BeautifulSoup 的新手。我正在使用 Python 和 bs 进行一些网络抓取,并且有两个段落具有相同的类名。 HTML如下: 2020 年 1 月 1 日星期三 00:01 ... 我是 BeautifulSoup 的新手。我正在使用 Python 和 bs 进行一些网络抓取,并且有两个段落具有相同的类名。 HTML如下: <p class='metadata'>Wed 1 Jan 2020 00:01 GMT</p><p class='metadata'>Category: <span>UK-News</span></p> 我正在尝试获取跨度标签内的类别名称(英国新闻)。当我抓取多篇文章时,我正在使用循环。这是我尝试过的一些事情: articles = soup.find_all('div', {'class' : 'article'}) for item in articles: #category = item.find('span') - prints out the same date #category = item.find('p', {'class' : 'metadata'}).text - prints every span tag in html #category = item.find('p', {'class' : 'metadata'}) - prints only the dates category = soup.select_one('span').get_text #prints out the same category name print(category) 这可能是一个小修复,但它真的让我很头疼,因为我觉得我已经尝试了一切。预先感谢。 您正在循环内的 soup 中搜索。将其更改为item.select_one: from bs4 import BeautifulSoup html_doc = """ <article> <p class='metadata'>Wed 1 Jan 2020 00:01 GMT</p> <p class='metadata'>Category: <span>UK-News</span></p> </article> <article> <p class='metadata'>Wed 2 Jan 2020 00:01 GMT</p> <p class='metadata'>Category: <span>World-News</span></p> </article>""" soup = BeautifulSoup(html_doc, "html.parser") articles = soup.find_all("article") for item in articles: category = item.select_one("p.metadata span").text # <-- use item.select print(category) 打印: UK-News World-News 试试这个: 对于文章中的项目: case1 = tag.select("div.ID").text case2 = tag.select("div.Id").next_sibling.text 打印(案例1,案例2)

回答 2 投票 0

如何使用 Selenium 以文本格式打印 Web 元素列表

我有一个元素列表,我想以文本格式打印,但是 Selenium 不会以可读格式打印它。 下面是我的代码: 从硒导入网络驱动程序 来自 selenium.webd...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.