web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用BeautifulSoup和Python 2.7登录Google网站

我正在为Quora编写一个Python Web爬虫程序,但需要使用Google登录。我搜索过网,但没有什么能满足我的问题。这是我的代码:# - * - coding:utf-8 - * - import mechanize ...

回答 1 投票 0

Python美丽的汤提取HTML元数据

我得到一些我不太明白的奇怪行为。我希望有人可以解释发生了什么。考虑这个元数据:

回答 2 投票 1

AttributeError:'NavigableString'对象没有属性,索引超出范围

可以帮忙,因为我正在努力两天,以便在此处提供的链接中检索产品的基本信息(产品名称,图片,评级,价格)。这是我的代码,我是新来的......

回答 2 投票 -1

在使用python请求进行抓取之前,请等待网页完全加载

我目前正在尝试从LinkedIn上的特定页面抓取数据。我有一个能够登录到LinkedIn的脚本,但是当我尝试访问包含数据的页面时,我遇到了麻烦。 ...

回答 1 投票 2

如何使这个爬虫更有效[关闭]

我构建了这个网络爬虫。 https://github.com/shoutweb/WebsiteCrawlerEmailExtractor //正则表达式函数扫描单个页面的电子邮件函数get_emails_from_webpage($ url)...

回答 1 投票 -5

是否有可能获得浏览器pdf查看器的HTML?

当您在浏览器中检查pdf查看器页面时,有一个html结构,但urllib2和请求都不返回任何内容,BS4进入infite循环。我只想要标题(在头部)......

回答 1 投票 0

如何从BeautifulSoup中的li标签之间的span标签中获取文本?

我正在尝试使用BeautifulSoup从网站上获取产品尺寸,但却被困在这里。我只需要获取文本:S,M,L,XL,XXL,XXXL,4XL,5XL代码:从urllib.request导入导入bs4 ...

回答 1 投票 1

如何将此字符串拆分为单个字符?

在BeautifulSoup对象中使用此html代码段... 507 3 3 ...

回答 3 投票 3

从html,JSOUP获取tabledata

从URL中提取表中数据的最佳方法是什么?简而言之,我需要从这两个表中获取实际数据:http://www.oddsportal.com/sure-bets/在这个例子中,数据会......

回答 1 投票 1


获取HTML表的一部分

我想从网站上获取表格的内容。这是网站的源代码:

回答 2 投票 0

WebBrowser导致程序内存不足错误

我有一个Windows桌面应用程序,用于使用WebBrowser在网站上进行WebScraping。我不得不使用WebBrowser,因为该网站实现了一些Javascript功能,所以这是唯一的......

回答 1 投票 1

使用Python从网站读取文本文件

您好我有问题我想从网上获取所有数据,但这太大了,无法将其保存到变量。我保存数据如下:r = urlopen(“http://download.cathdb.info/cath/releases/all -...

回答 1 投票 -1

从包含R的超链接的网页中提取多个表

这是我第一次尝试网络抓取。我试图从这个网页中提取一个表列表(列名:油和气表)。石油和天然气数据。为一个州提取数据很容易......

回答 2 投票 1

从使用Ajax请求的网站抓取数据

到目前为止,我已经制作了一个从网站上抓取数据的程序,我已经使用python和selenium以及beautifulsoup创建了一个程序,当它想要从这个网站的页面中抓取数据时......

回答 1 投票 0

以Java编程方式触发HTML按钮

我正在尝试用jsoup抓取一个HTML页面。但是,为了获取我需要的数据,我需要单击一个HTML按钮(不是)。有没有办法在Java / Kotlin中这样做?这里 ...

回答 1 投票 0

Selenium脚本返回null给元素

我正在运行这个脚本,在找到一个id之后获取一些内容,这将由AJAX调用填充,它应该转到第二个URL。转到第二个网址后,它找不到任何内容......

回答 1 投票 1

如何使用AngleSharp和LINQ从网站中提取数据?

我试图从下面提到的网站中提取价格。我正在使用AngleSharp进行提取。在网站上,价格如下(例如):...

回答 1 投票 3

无法使用scrapy刮取snapdeal数据

尝试刮掉snapdeal数据时的输出如下:scrapy shell“https://www.snapdeal.com”response.text u' \n Access Denied \n

回答 1 投票 -1

Selenium + PhantomJS打开的网页与常规浏览器不同

我最近开始在Python中编写Web抓取代码。我只使用请求和BeautifulSoup就能做很多事情。然后,当我尝试Staples网站时,我找不到...中显示的元素

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.