web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

获取user_id,从webscraping图片评级

我有一个来自web的数据框从网站animeka网站抓取所有页面:导入pandas作为来自bs4的pd导入请求导入BeautifulSoup for page_no in range(1,467):url ='http:// ...

回答 1 投票 1

使用scrapy查找在网站中重复的网址数量

如何查找网站中重复的网址数量?因为杂乱的框架默认不会刮掉重复的URL。我只需要找到重复的URL和次数。我试着这样做,......

回答 2 投票 0

使用Python BeautifulSoup查找页数

我想从Steam页面中提取总页码(在本例中为11)。我相信以下代码应该工作(返回11),但它返回一个空列表。就好像它没有找到......

回答 2 投票 0

scrapy中的Xpath或css选择器属性值

嗨,我是scrapy的新手,我想从html元素中提取属性值。那么什么可能是从html中提取属性值的正确方法。我想提取“data-next -...

回答 1 投票 -1

在包含空格的类中使用Beautiful Soup

我正在使用Python with Beautiful Soup废除Steam的20个游戏列表(http://store.steampowered.com/tags/en-us/RPG/)。但是这些游戏不是用div分开的,而是用一个标签代替。 ...

回答 1 投票 0


感谢网页使用python或pyspark抓取多个页面

我正在尝试第一次网站抓一个网站,我想从网页抓取日本动画网站创建一个csv文件与标题,性别,工作室和动画的持续时间。我只是 ...

回答 3 投票 0

如何在不变的URL中抓取不同城市的多个页面 - Python 3

我正在访问不同的网站来练习网页抓取并尝试网络抓取以下网站 - http://www.pizzahut.com.cn/StoreList我之前在网上发布过类似的问题...

回答 3 投票 1

通过机器学习从网页中提取信息

我想从Python中的网页中提取特定类型的信息。让我们说邮政地址。它有数千种形式,但仍然可以辨认出来。因为有很多......

回答 8 投票 42

使用RSelenium执行拖放操作

我想使用RSelenium从这个网站http://highereducationstatistics.education.gov.au/下载文件(通过点击excel图像)。但是,在下载文件之前,有一系列...

回答 1 投票 0

谷歌财经新网站报价抓[重复]

我一直试图用我编写的这段代码从新的Google财经网站上删除引用。 import urllib import re import import import requests def get_quote(symbol):base_url ='http:// ...

回答 1 投票 0

Web抓取导致403 Forbidden Error

我正在尝试使用BeautifulSoup网上查找SeekingAlpha的每家公司的收入。但是,似乎网站检测到正在使用网络刮刀?我收到“HTTP错误403:...

回答 3 投票 1

用rvest选择特定的样式

是否有可能只使用rvest刮掉具有特定样式的文本?示例HTML: Lorem存有胡萝卜;

回答 1 投票 1

BeautifulSoup刮表id与python

我是新手,我正在学习使用BeautifulSoup,但我在刮桌子时遇到了麻烦。对于我试图解析的HTML: ...

回答 1 投票 1

StaleElementReferenceException:我的Selenium代码不会翻页

我正在尝试使用Selenium和Python来抓取网站的几个页面,但我的代码却一遍又一遍。我希望能够在每个底部给出的值框中输入页码...

回答 2 投票 0

Python中的Web Scraping

以下代码输出空列表;我希望它能打印股票价格。任何帮助将不胜感激。谢谢! import urllib.request import re companyList = [“aapl”,“goog”,“nflx”] for i in range(...

回答 2 投票 -2

无法使用我的scraper中定义的xpath获取项目

我试图创建两个xpath来从一些元素中获取两个项目。然而,第一个是伟大的,但在第二个:我无法得到任何想法。任何有关这方面的帮助将不胜感激。

回答 1 投票 1

如何在网站完成加载动态内容之前延迟fetch()

我有一个chrome扩展名。每当用户点击扩展程序的按钮时,它将下载以下URL的来源:“smmry.com/(用户当前活动标签的网址)”我正在使用以下内容...

回答 2 投票 1

如何找到一个非常深层嵌套的A HREF让我的蜘蛛找到NEXT按钮?

我正在制作我的第二只蜘蛛,我发现这个特殊的结构对我来说非常复杂,我希望你能帮助我。我有这个html页面(请注意,所有不必要的数据都被删除,...

回答 3 投票 1

如何刮内容?

我创建了以下代码来获取内容:import requests r = requests.post(url ='https://icecat.us/index.php/product/offers')print r print r.content Requests返回HTTP响应代码。 ..

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.