web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”（例如使用Excel VBA）的问题应该*进行彻底的研究*，因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序，定制软件的开发，甚至是标准化方式的手动数据收集。

获取user_id，从webscraping图片评级

我有一个来自web的数据框从网站animeka网站抓取所有页面：导入pandas作为来自bs4的pd导入请求导入BeautifulSoup for page_no in range（1,467）：url ='http：// ...

python pandas web-scraping beautifulsoup

回答 1 投票 1

使用scrapy查找在网站中重复的网址数量

如何查找网站中重复的网址数量？因为杂乱的框架默认不会刮掉重复的URL。我只需要找到重复的URL和次数。我试着这样做，......

python web-scraping scrapy scrapy-spider scrape

回答 2 投票 0

使用Python BeautifulSoup查找页数

我想从Steam页面中提取总页码（在本例中为11）。我相信以下代码应该工作（返回11），但它返回一个空列表。就好像它没有找到......

python web-scraping beautifulsoup

回答 2 投票 0

scrapy中的Xpath或css选择器属性值

嗨，我是scrapy的新手，我想从html元素中提取属性值。那么什么可能是从html中提取属性值的正确方法。我想提取“data-next -...

python xpath web-scraping scrapy css-selectors

回答 1 投票 -1

在包含空格的类中使用Beautiful Soup

我正在使用Python with Beautiful Soup废除Steam的20个游戏列表（http://store.steampowered.com/tags/en-us/RPG/）。但是这些游戏不是用div分开的，而是用一个标签代替。 ...

python web-scraping beautifulsoup

回答 1 投票 0

Beautifulsoup4 - 通过强标记值识别信息仅适用于标记的某些值

我正在处理HTML的以下“块”： &...

python html python-3.x web-scraping beautifulsoup

回答 1 投票 1

感谢网页使用python或pyspark抓取多个页面

我正在尝试第一次网站抓一个网站，我想从网页抓取日本动画网站创建一个csv文件与标题，性别，工作室和动画的持续时间。我只是 ...

python web-scraping beautifulsoup pyspark

回答 3 投票 0

如何在不变的URL中抓取不同城市的多个页面 - Python 3

我正在访问不同的网站来练习网页抓取并尝试网络抓取以下网站 - http://www.pizzahut.com.cn/StoreList我之前在网上发布过类似的问题...

python html web-scraping beautifulsoup

回答 3 投票 1

通过机器学习从网页中提取信息

我想从Python中的网页中提取特定类型的信息。让我们说邮政地址。它有数千种形式，但仍然可以辨认出来。因为有很多......

python machine-learning html-parsing web-scraping extract

回答 8 投票 42

使用RSelenium执行拖放操作

我想使用RSelenium从这个网站http://highereducationstatistics.education.gov.au/下载文件（通过点击excel图像）。但是，在下载文件之前，有一系列...

r web-scraping rselenium

回答 1 投票 0

谷歌财经新网站报价抓[重复]

我一直试图用我编写的这段代码从新的Google财经网站上删除引用。 import urllib import re import import import requests def get_quote（symbol）：base_url ='http：// ...

python web-scraping google-finance

回答 1 投票 0

Web抓取导致403 Forbidden Error

我正在尝试使用BeautifulSoup网上查找SeekingAlpha的每家公司的收入。但是，似乎网站检测到正在使用网络刮刀？我收到“HTTP错误403：...

python python-3.x web-scraping beautifulsoup

回答 3 投票 1

用rvest选择特定的样式

是否有可能只使用rvest刮掉具有特定样式的文本？示例HTML： Lorem存有胡萝卜;

r web-scraping rvest

回答 1 投票 1

BeautifulSoup刮表id与python

我是新手，我正在学习使用BeautifulSoup，但我在刮桌子时遇到了麻烦。对于我试图解析的HTML： ...

python web-scraping beautifulsoup

回答 1 投票 1

StaleElementReferenceException：我的Selenium代码不会翻页

我正在尝试使用Selenium和Python来抓取网站的几个页面，但我的代码却一遍又一遍。我希望能够在每个底部给出的值框中输入页码...

python selenium web-scraping staleelementreferenceexception

回答 2 投票 0

Python中的Web Scraping

以下代码输出空列表;我希望它能打印股票价格。任何帮助将不胜感激。谢谢！ import urllib.request import re companyList = [“aapl”，“goog”，“nflx”] for i in range（...

python python-3.x web-scraping python-3.5 urllib

回答 2 投票 -2

无法使用我的scraper中定义的xpath获取项目

我试图创建两个xpath来从一些元素中获取两个项目。然而，第一个是伟大的，但在第二个：我无法得到任何想法。任何有关这方面的帮助将不胜感激。

python python-3.x xpath web-scraping lxml

回答 1 投票 1

如何在网站完成加载动态内容之前延迟fetch（）

我有一个chrome扩展名。每当用户点击扩展程序的按钮时，它将下载以下URL的来源：“smmry.com/（用户当前活动标签的网址）”我正在使用以下内容...

javascript google-chrome-extension web-scraping fetch-api dynamic-content

回答 2 投票 1

如何找到一个非常深层嵌套的A HREF让我的蜘蛛找到NEXT按钮？

我正在制作我的第二只蜘蛛，我发现这个特殊的结构对我来说非常复杂，我希望你能帮助我。我有这个html页面（请注意，所有不必要的数据都被删除，...

css xpath web-scraping scrapy scrapy-spider

回答 3 投票 1

如何刮内容？

我创建了以下代码来获取内容：import requests r = requests.post（url ='https：//icecat.us/index.php/product/offers'）print r print r.content Requests返回HTTP响应代码。 ..

web-scraping

回答 1 投票 0

web-scraping 相关问题

最新问题