web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”（例如使用Excel VBA）的问题应该*进行彻底的研究*，因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序，定制软件的开发，甚至是标准化方式的手动数据收集。

为什么我尝试从 GlassDoor 抓取时状态代码为 403？

我正在尝试从玻璃门上抓取工作信息。类似的代码结构对于 LinkedIn 来说效果很好，但我在这里遇到了问题。我收到的状态代码为 403，所以我猜我遇到了一些问题......

python web-scraping beautifulsoup screen-scraping scrape

回答 1 投票 0

Pandas read_html 自动将任意一列转换为 str

我一直在尝试从网站上抓取表格，但由于某种原因，Pandas 会自动将每一列转换为字符串，因此某些值变得完全无用。例如，0.62 因为...

pandas dataframe selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

是否可以手动停止Selenium Python中的代码以绕过验证码，然后恢复它

我使用 Selenium 和 Python 来与网络交互。是否可以以某种方式启动浏览器，然后暂停程序一段时间，比如 2 分钟，然后让其余代码运行。

selenium-webdriver web-scraping bots recaptcha captcha

回答 1 投票 0

Beautiful Soup 返回脚本语言而不是 HTML

我编写了一个Python程序来从几个购物网站上抓取数据，直到最近，该程序在这两个网站上都运行良好。 URL1 - https://www.auchan.pt/pt/alimentacao/alimentacao-bebe-e-crianca/papa-e-fa...

python web-scraping beautifulsoup

回答 1 投票 0

如何使用Python与javascript网页交互？

我是网络抓取的新手；我有一个从 COCA 中抓取一些数据的小项目，但我什至不知道从哪里开始。看来这个网页是使用一些 Javascript 构建的，我

javascript python web-scraping

回答 2 投票 0

抓取新闻时无法打印链接

我喜欢页面上相关新闻文章的标题和链接列表。我可以只打印标题，但由于某种原因，链接仍然不清晰。这是我的Python代码...

python html parsing web-scraping beautifulsoup

回答 1 投票 0

使用Selenium进行迭代而不被阻塞

根据上一个问题... 我有一个需要用 Selenium 抓取的 URL 列表，但在获得第一个 URL 的结果后它总是阻止我。这就是我正在做的：来自选择...

python selenium-webdriver web-scraping

回答 1 投票 0

为什么Scrapy获取不到这个html？

此包含邮政编码查询字符串的 URL 可在浏览器中正确加载搜索结果： https://www.psychotherapy.org.uk/find-a-therapy/?Location=M3%201AR&Distance=10&page=7 每个...

web-scraping scrapy

回答 1 投票 0

R rvest Web 抓取 JSON 格式

我正在尝试从 https://www.wheeloratings.com/tennis_wta_ ratings.html 网络抓取数据。我已经从其代码的第 367 行中获取了数据所在的确切行查看来源：http...

r json web-scraping rvest

回答 1 投票 0

BeautifulSoup 网络抓取 find_all( ):

我正在尝试获取绿色圆圈的时间和价格，保存它们并将数据发送到https://github.com/pedroslopez/whatsapp-web.js。 https://imgur.com/NSmNxL7 谷歌合作...

python web-scraping

回答 1 投票 0

如何使用 jsoup 抓取 Facebook 页面帖子？

我正在尝试使用 jsoup 在 Spring boot 中抓取 Facebook 页面。下面的方法返回一个空的 JSON： @GetMapping("/test-json") public String scrapeFacebookPageJson() 抛出 IOExcepti...

java web-scraping jsoup

回答 1 投票 0

如何将Scrapy爬取的数据以csv或json格式上传到Amazon S3？

将Scrapy爬取的数据以csv/jsonl/json文件上传到Amazon s3的步骤是什么？我从互联网上能找到的就是将抓取的图像上传到 s3 存储桶。我现在...

python json amazon-s3 web-scraping scrapy

回答 4 投票 0

我无法从动态网站提取数据

这是任务的详细信息。编写一个 Python 脚本，通过以下方式从以下网站 https://www.psychologytoday.com/us/therapyes 抓取数据第 1 步 – 脚本将执行 1

html selenium-webdriver web-scraping beautifulsoup python-requests

回答 1 投票 0

Python 网页抓取：代码输出：汤未定义

我的雅虎股票网页抓取程序给我错误。请在下面找到代码 def getdata(符号): headers= {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML，如 G...

python-3.x web-scraping beautifulsoup

回答 1 投票 0

使用 Selenium 单击 Cookie 覆盖时出现问题

我正在尝试使用 Selenium Python 访问网站，为此，我想拒绝 cookie（或接受，此时以哪个都可以）。我在

selenium-webdriver web-scraping

回答 1 投票 0

无法通过网页抓取在维基百科中找到特定表格？

我正在抓取以下维基百科页面：https://en.wikipedia.org/wiki/Eurovision_Song_Contest_2022。我已经能够从此页面中抓取另一个表格，但现在我想抓取“

python web-scraping beautifulsoup

回答 1 投票 0

无法通过网页抓取在维基百科中找到特定表格？

我正在抓取以下维基百科页面：https://en.wikipedia.org/wiki/Eurovision_Song_Contest_2022。我已经能够从此页面中抓取另一个表格，但现在我想抓取“

python web-scraping beautifulsoup

回答 1 投票 0

Pyton/Selenium 代码只是跳过一些代码元素

大家好。我希望它转到 select_page 中输入的页面并将其滚动到末尾，检查这是否是末尾，然后加载图像，然后转到另一个页面或结束，如果 end_page mat...

python selenium-webdriver web-scraping pycharm

回答 1 投票 0

BeautifulSoup 抓取具有相同类名的标签

我是 BeautifulSoup 的新手。我正在使用 Python 和 bs 进行一些网络抓取，并且有两个段落具有相同的类名。 HTML如下： 2020 年 1 月 1 日星期三 00:01 ... 我是 BeautifulSoup 的新手。我正在使用 Python 和 bs 进行一些网络抓取，并且有两个段落具有相同的类名。 HTML如下： <p class='metadata'>Wed 1 Jan 2020 00:01 GMT</p><p class='metadata'>Category: <span>UK-News</span></p> 我正在尝试获取跨度标签内的类别名称（英国新闻）。当我抓取多篇文章时，我正在使用循环。这是我尝试过的一些事情： articles = soup.find_all('div', {'class' : 'article'}) for item in articles: #category = item.find('span') - prints out the same date #category = item.find('p', {'class' : 'metadata'}).text - prints every span tag in html #category = item.find('p', {'class' : 'metadata'}) - prints only the dates category = soup.select_one('span').get_text #prints out the same category name print(category) 这可能是一个小修复，但它真的让我很头疼，因为我觉得我已经尝试了一切。预先感谢。您正在循环内的 soup 中搜索。将其更改为item.select_one： from bs4 import BeautifulSoup html_doc = """ <article> <p class='metadata'>Wed 1 Jan 2020 00:01 GMT</p> <p class='metadata'>Category: <span>UK-News</span></p> </article> <article> <p class='metadata'>Wed 2 Jan 2020 00:01 GMT</p> <p class='metadata'>Category: <span>World-News</span></p> </article>""" soup = BeautifulSoup(html_doc, "html.parser") articles = soup.find_all("article") for item in articles: category = item.select_one("p.metadata span").text # <-- use item.select print(category) 打印： UK-News World-News 试试这个：对于文章中的项目： case1 = tag.select("div.ID").text case2 = tag.select("div.Id").next_sibling.text 打印（案例1，案例2）

python web-scraping beautifulsoup

回答 2 投票 0

如何使用 Selenium 以文本格式打印 Web 元素列表

我有一个元素列表，我想以文本格式打印，但是 Selenium 不会以可读格式打印它。下面是我的代码：从硒导入网络驱动程序来自 selenium.webd...

python selenium-webdriver web-scraping

回答 1 投票 0

web-scraping 相关问题

最新问题