web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Scrapy Scrape元素未知数量

我正试图刮掉Shopee的网站列表。一些例子包括dudesgadget和2ubest。这些shopee商店中的每一个都有不同的设计和构建网元的方式和不同的...

回答 2 投票 1

如何使用python aiohttp库下载多个网页?

我试图从视频游戏的排行榜中异步搜索数据。每周和每天都有挑战。到目前为止,我已使用信号量将此代码基于此异步客户端。不同的是我......

回答 1 投票 0

代码正在永远执行

这是我的代码,如果url没有打开,它总是引用“错误”。我怎样才能使我的代码在内存使用和时间方面更有效,因为我的代码正在......

回答 1 投票 -2

为什么我得到“'NoneType'对象没有属性”错误

我已经制作了一个脚本,用于从网站上抓取一些数据,但它只运行几页,之后它将停止显示“'NoneType'对象没有属性'a'”。另一个错误......

回答 2 投票 0

如何在python中创建一个多维字典/对象

我有这个对象:“产品”:[{“title”:“ASUS ZenFone 4 Max”,“作者”:“1”,“日期”:“2017-12-17 21:49:30”,“date_gmt” :“0000-00-00 00:00:00”,“content”:“”,“......

回答 2 投票 0

使用jsoup刮取多个页面

我试图在GitHub存储库的分页中废弃链接我已经单独抓取它们但现在我想要的是使用一些循环来优化它。知道我该怎么办?这是代码ComitUrl =“...

回答 1 投票 0

格式化刮擦数据 - 并限制foreach循环

我用下面的代码解决了我的初始问题。我现在需要学习如何将返回的数据限制为前5行。如何限制foreach循环?我正在从网站上抓取数据 - 我能够......

回答 1 投票 1

从HTTP帖子获取表单数据

通常,我需要填写“电子邮件”和“密码”才能登录网站。但是当我查看浏览器的开发人员工具时,我发现还有另一个字段'-_-'。那个价值......

回答 1 投票 0

与BeautifulSoup的爬行深度

beautifulsoup包中是否有一个函数允许用户在站点内设置爬行深度?我对Python比较新,但我之前在R中使用过Rcrawler而Rcrawler提供了'...

回答 1 投票 2

Web抓蟒蛇|有限的对象

我正试图从一个使用pc部件的网站获取数据,我在这个页面上有超过3500个部分的链接,问题是如果我使用干净的链接:https://www.komplett.no/搜索q = ...

回答 1 投票 0

网站是否有可能在刮痧时将部分从美丽的汤中隐藏起来?

我试图用python包美丽的汤刮一个网站时遇到了一个问题。不知怎的,我得到的一切都是我感兴趣的部分。我正试图刮...

回答 2 投票 1

请求SSLError:HTTPSConnectionPool(host ='www.recruit.com.hk',port = 443):使用url超出最大重试次数

我对此非常困惑。这就是我正在使用的。请求2.18.4 python 2.7.14我正在构建一个scraper并尝试使用requests.get()来连接到一个url。这确实是一个链接......

回答 1 投票 0

Python:BeautifulSoup从div部分提取所有span类

from requests import from bs4 import BeautifulSoup url ='https://www.ceda.com.au/Events/Upcoming-events'response = get(url)events_container = html_soup.find_all('div',class_ ='list- bx')...

回答 2 投票 1

PHP CURL WAMP - SSL证书错误:无法获得本地颁发者证书

我正在运行PHP版本5.5.12作为WAMP的一部分。当我尝试执行此代码时,我收到以下错误:SSL证书错误:无法获取本地颁发者证书此脚本旨在获取...

回答 2 投票 1

使用链接名称刮取链接

我试图废除与jsoup链接两个链接是完全相同但我想只获取第二个任何建议?我尝试了这个,但它没有工作元素pagination2 = document3.select(“div ....

回答 2 投票 -1

从WIkipedia页面中提取公式 - Python

我正在提取维基百科页面并使用python将它们写在一个文件中。目前我正在这样做:代码片段:keyWords = [“动能”,“引力”]关键词中的单词:...

回答 1 投票 0

无法从网页上抓取类别标题

我在python中编写了一个scraper来从网页上获取不同的类别名称,但它无法从该页面获取任何内容。我真的很困惑,不知道我要去哪里......

回答 2 投票 4

如何使用PHP ad xpath在HTML页面中获取字符串(POST请求?)

我正试图抓取这个网页... https://www.aslteramo.it/SISWebOnLine/ProntoSoccorso.aspx ....使用PHP和XPath获取红色,黄色,绿色和白色下的数字值...

回答 1 投票 0

我怎么用ph p find函数找到这个“td”?

这是我的代码:$ post = ['iatacode'=>'DME',]; $ ch = curl_init(); curl_setopt($ ch,CURLOPT_URL,'http://www.airlinecodes.co.uk/aptcoderes.asp'); curl_setopt($ ch,...

回答 2 投票 0

根据字符串的特定部分从列表中选择数据[关闭]

非常感谢您帮助我的努力!我正在尝试我的一些小型刮削项目。我有一个网页链接列表,现在我只想选择与产品相关的链接...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.