web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

谷歌财经新网站报价抓[重复]

我一直试图用我编写的这段代码从新的Google财经网站上删除引用。 import urllib import re import import import requests def get_quote(symbol):base_url ='http:// ...

回答 1 投票 0

Web抓取导致403 Forbidden Error

我正在尝试使用BeautifulSoup网上查找SeekingAlpha的每家公司的收入。但是,似乎网站检测到正在使用网络刮刀?我收到“HTTP错误403:...

回答 3 投票 1

用rvest选择特定的样式

是否有可能只使用rvest刮掉具有特定样式的文本?示例HTML: Lorem存有胡萝卜;

回答 1 投票 1

BeautifulSoup刮表id与python

我是新手,我正在学习使用BeautifulSoup,但我在刮桌子时遇到了麻烦。对于我试图解析的HTML: ...

回答 1 投票 1

StaleElementReferenceException:我的Selenium代码不会翻页

我正在尝试使用Selenium和Python来抓取网站的几个页面,但我的代码却一遍又一遍。我希望能够在每个底部给出的值框中输入页码...

回答 2 投票 0

Python中的Web Scraping

以下代码输出空列表;我希望它能打印股票价格。任何帮助将不胜感激。谢谢! import urllib.request import re companyList = [“aapl”,“goog”,“nflx”] for i in range(...

回答 2 投票 -2

无法使用我的scraper中定义的xpath获取项目

我试图创建两个xpath来从一些元素中获取两个项目。然而,第一个是伟大的,但在第二个:我无法得到任何想法。任何有关这方面的帮助将不胜感激。

回答 1 投票 1

如何在网站完成加载动态内容之前延迟fetch()

我有一个chrome扩展名。每当用户点击扩展程序的按钮时,它将下载以下URL的来源:“smmry.com/(用户当前活动标签的网址)”我正在使用以下内容...

回答 2 投票 1

如何找到一个非常深层嵌套的A HREF让我的蜘蛛找到NEXT按钮?

我正在制作我的第二只蜘蛛,我发现这个特殊的结构对我来说非常复杂,我希望你能帮助我。我有这个html页面(请注意,所有不必要的数据都被删除,...

回答 3 投票 1

如何刮内容?

我创建了以下代码来获取内容:import requests r = requests.post(url ='https://icecat.us/index.php/product/offers')print r print r.content Requests返回HTTP响应代码。 ..

回答 1 投票 0

刮动态加载的网站

当我使用cURL加载页面“http://proxydb.net”,或者尝试抓取页面时,响应正文为空。显然,该页面是使用JavaScript动态加载的。有什么选择......

回答 1 投票 1

使用python selenium检索href值

我试图从元素中检索href值,如下图所示。有什么建议。以下是元素作为示例。我需要用双引号检索和复制信息。 HREF = ...

回答 1 投票 -2

使用VBA宏遍历javascrape网页上的每个表

我正在尝试从网站上抓取多个表格。到目前为止,我已经构建了一个excel VBA宏来执行此操作。我还想出了如何在网站的多个页面上获取所有数据。为......

回答 1 投票 1

在node.js中的Webscraper,JS修改了DOM

我正在尝试写一个webscraper,以获得一些销售线索。问题是在现代网页设计中,大多数网站使用一些JavaScript来修改DOM(通常使用React,Angular,甚至只是一些......

回答 1 投票 0

美丽的汤在子元素中找到href

我已经尝试了不同的解决方案,但我无法在 element. I can reach the div class with soup.select("div.quicklinks") but then I do not know how to take the href ...中获得href

回答 4 投票 0

无法摆脱脚本中的硬编码延迟

我在vba中编写了一个与selenium结合的脚本来解析网页中可用的所有公司名称。该网页已激活延迟加载方法,因此只有20个链接可见...

回答 6 投票 3

使用BeautifulSoup获取产品ID,品牌名称和图像时,在我的代码中出现问题

我试图从示例产品网址获取产品详细信息,使用以下代码 - def get_soup(url):soup =无尝试:response = requests.get(url)if response.status_code == 200:html ...

回答 1 投票 0

从blablacar网站提取5000骑行详情

任何人都可以帮我从blabla汽车的网址中提取骑手的详细信息或请为网页潦草提出一些想法从blabla汽车网站的网址中提取第一个5000骑行详情...

回答 1 投票 -3

从div,class和span元素进行Web抓取

我想从S&P Down Jones Indices网站上提取数据。相关数据嵌入在此代码中:

回答 1 投票 0

如何在vba中抓取web数据

我已经按照jsotola的建议并记录下 面的宏,但遇到错误,我该如何解决?运行时错误91,以下代码已突出显示Selection.ListObject ....

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.