screen-scraping 相关问题

屏幕抓取(也称为网络抓取或数据抓取)是一种用于从用户界面收集和解析信息的软件技术。如果您的问题是关于从网站或Web-API进行抓取,请使用[web-scraping]标记。

[进行更精确的编辑] =抓取Ruby Mechanize-需要在显示完整的html代码之前提交表单

感谢您的回答,我添加了一些代码和详细信息,以使其更加准确。我希望我的问题更容易理解。非常感谢你。 #对于一个学校项目,我正在尝试刮除...

回答 1 投票 0

从ASP.NET WebForm获取数据

我是Web开发的新手,以前从未进行过任何屏幕抓取或爬网的工作,但是昨天我的一个朋友问我是否可以从该网站上获取一些数据,...

回答 2 投票 0

不确定如何抓取此赔率网站

我是python和scrapy的新手。我曾希望我可以将两者结合起来,以刮擦一些赌博网站。这是一个例子。 https://www.oddschecker.com/football/scottish/premiership/kilmarnock-v-aberdeen / ...

回答 1 投票 0

如何使用Ruby和机械化方法解析格式错误的HTML

我正在使用Mechanize导航HTML格式错误的网站。特别是,我有一个页面,该页面的复选框超出服务器可以合理地处理请求的形式。我想要...

回答 2 投票 3

如何使用Beautiflul汤从Yahoo抓取多个报价

[我试图一次从Yahoo Finance中抓取多个报价,而不仅仅是一次。我唯一感兴趣的就是获取股票价格。我已经搜索了Beautiful Soup提供的html,但是我不能...

回答 1 投票 -2

使用Apify和Puppeteer抓取URL

我正在尝试使用称为“网络抓取工具”的Apify参与者从https://en.wikipedia.org/wiki/List_of_hedge_funds抓取网址,具体来说,我正在尝试使用...

回答 1 投票 1

HTMLUnit中如何解决“ JavaScriptException值= SyntaxError:带有严格模式下不允许使用的语句”

在我的Java代码中,我正在尝试使用HTMLUnit库获取网页。我的代码很简单,如下所示,公共静态void main(String [] args)抛出FailingHttpStatusCodeException,...

回答 1 投票 0


合并分割数

我想在屏幕上抓取一些用户详细信息,包括电话号码。从一个应用程序将细节粘贴到另一个应用程序中。手机号中有一个空格。例如8123 4567. ...

回答 1 投票 1

使用Beautifulsoup在实例化时给出一个ResultSet对象

我正在尝试使用beautifulsoup,但是当我用html对象实例化它时,它是说它是一个ResultSet对象,并且我尝试运行的任何方法都会因AttributeError而失败。 bs = ...

回答 1 投票 0

python请求无法获取完整页面

“”“这是我的代码”“”来自bs4的导入请求导入BeautifulSoup从硒导入的网络驱动程序中随机导入url =“ http://www.yopmail.com/en/?smith” request = requests.get(url)汤= ...

回答 1 投票 0

使用Apify进行网络抓取

我正在尝试从https://en.wikipedia.org/wiki/List_of_hedge_funds抓取URL,具体来说,我正在尝试使用Apify抓取该页面并从。中存在的锚标记中返回URL列表。 。

回答 1 投票 1

使用RVest抓取多个URL

在rvest中使用read_html时,如何抓取多个URL?目的是从相应的URL获得包含文本主体的单个文档,并在其上进行各种分析。我...

回答 1 投票 0

Python-美丽的汤。为什么我的抓取循环不起作用?

我正在尝试使用Python抓取Nordnet.no的名称,最后库存和最新更新,我为此做了一个函数,但是我只得到第一个结果-其余的没有。导入请求导入csv ...

回答 1 投票 -1

使用beautifulsoup和Python抓取html数据

我正在尝试从以下网址中抓取学校名称:https://www.niche.com/k12/search/best-public-high-schools/s/indiana/?page=1。我想刮10页,因此for循环。我从来没有...

回答 2 投票 0

Python正则表达式可跨多行查找全部

我在过去一周中一直尝试解决此问题,但未取得任何进展。非常感谢您的任何帮助。我有成千上万个带有以下文本的文件:、、、、、、、、、、、、、、、、、、、、、、、、、、 ...

回答 2 投票 0

BeautifulSoup .text方法错误:ResultSet对象没有属性'text'

我创建了一个简单的刮板,但是将ResultSet更改为文本时遇到了问题。我只想获取没有href等的文本。当我使用'find'方法时,它很好用,但是当我第二次添加'find_all'时...

回答 1 投票 0

[使用BeautifulSoup搜寻求职网站

我正在尝试从该网站上刮取所有完整的职位描述,但我陷入了困境:https://www.seek.co.nz/data-analyst-jobs/full-time?daterange=31&salaryrange=70000-999999&salarytype= ...

回答 1 投票 0

带有作业队列系统的PHP / Laravel中的逻辑代码

我正在使用Laravel 3制作网络抓取工具,并且有一个队列系统。问题:我应该在哪里放置刮取逻辑代码?在工人/工作班?在静态调用的库类中。

回答 1 投票 5

从通过DataTables和Ajax执行服务器端数据处理的网站进行数据刮刮

我正在尝试从网站进行数据抓取过程的自动化,该网站进行服务器端数据提取并按需加载数据(向下滚动浏览该表)。通过做一些谷歌搜索和...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.