web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

处理Web抓取中的类多输入

嗨,我试图废弃值=“36”,但我不知道如何处理这个类有多个输入的事实。我的代码如下:## cdkitchen.com url ='http://www.cdkitchen ....

回答 2 投票 0

如何更改python数组的编码?

我使用以下代码从中文网站上刮取表格。它工作正常。但似乎我存储在列表中的内容没有正确显示。从bs4导入导入请求...

回答 1 投票 1

如何使用Python和Selenium分页来抓取页面

我一直试图在网站http://merolagani.com/CompanyDetail.aspx?symbol=ADBL的“价格历史”标签下废弃该表。我已经使用Selenium来自动化这个过程但是不能......

回答 1 投票 -8

如何用scrapy框架抓取网页?

我是webscrapping的新手。我已经开始学习scrapy框架了。我介绍了scrapy的基本教程。现在我想废弃这个页面。根据本教程,要获得整个html页面包含...

回答 1 投票 0

无法从网页上获取少量项目

我在python中编写了一个与selenium结合使用的脚本来解析网页中的一些项目。无论如何我无法让它工作。我所追求的项目(可能)在iframe中。我试着改变它......

回答 1 投票 5

重定向上的httpclient抛出异常

我正在尝试使用HttpClient下载一个网页,这是我的代码:private async Task _doRequest(string url){string result = string.Empty; var client = HttpClient;使用(var ...

回答 1 投票 1

RSelenium:使用Chrome下载文件时出错

我正在使用RSelenium下载一些.xls文件。我能够使用以下代码设置服务器获得一个有点可通过的解决方案,它指定在我...时不创建弹出窗口...

回答 1 投票 1

CSS Selector获取元素属性值

HTML结构是这样的: First one This is my selector: m_URL = sel.css("td.hey a:nth-child(1)[href] ")....

回答 2 投票 8

使用BeautifulSoup从javascript函数中收集返回值

我想通过此网址使用BeautifulSoup收集代理商的电话号码:https://www.cv-library.co.uk/companies/agencies/0-9。但问题是,我必须先点击一个链接到...的链接...

回答 1 投票 -1

使用PHP从HTML表中读取数据

最近我有一个问题,我要做的是从HTML表读取数据并将数据抓取到名为$ id的变量中。例如,我有这个代码: 413

回答 3 投票 2

使用jquery将数据放入表中

在从其他网站抓取数据后,我无法重新创建表的结构。我正在使用这个小提琴中的例子:http://jsfiddle.net/skelly/m4QCt/我的例子...

回答 1 投票 0

如何使用PHP仅提取html表的第二列的第二个单元格

我正在尝试使用php仅提取html表的第二列的第二个单元格。这是表格的一个例子:

回答 2 投票 0

报废信息到我的数据库(使用rethinkdb)

我想使用抓取信息创建数据库。如何将框架(totaljs)和数据库(rethinkdb)与我的报废的aps链接起来,这样当我运行废料程序时,他们就会填充数据库。我正在使用 ...

回答 1 投票 0

运行时错误91与VBA Web抓取不时

我遇到过这篇文章。我尝试了接受的答案建议的解决方案,并提出了以下代码。 Sub WebScraping()Dim appIE As Object Dim myValue As String Dim iLastRow As ...

回答 1 投票 0

Selenium在主窗口中找不到元素

我试图使用Selenium和Python 3从网站下载文件。这需要在覆盖窗口上按下确认按钮。叠加窗口不在iFrame中 - HTML ...

回答 2 投票 0

斯普林特:按风格查找

我在python上使用splinter模块。我需要检查一个元素在页面上是否可见,看起来唯一的方法是style =“display:none;”我无法找到一种方法来检测。 ...

回答 1 投票 2

从Excel电子表格导入特定单元格

我有以下电子表格,上传到:https://files.fm/u/6uhc3qwr我正在尝试导入资产负债表的特定单元格,所以在资产部分(大约第19行)我们有总电流...

回答 1 投票 1

bs4选择器未拍摄“图像:标题”

我正在制作网站刮刀,以便在网站上获取所有产品名称。在尝试找到产品的标题时,我不断收到KeyError。 HTML: https://开头...

回答 2 投票 0

即使显式等待已经存在,也无法摆脱硬编码延迟

我已经在python中编写了一些与selenium结合使用的代码来解析quora.com中的不同问题。我的刮刀正在做这件事。事情是我在这里使用硬编码延迟...

回答 1 投票 1

使用BeautifulSoup和Python 2.7登录Google网站

我正在为Quora编写一个Python Web爬虫程序,但需要使用Google登录。我搜索过网,但没有什么能满足我的问题。这是我的代码:# - * - coding:utf-8 - * - import mechanize ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.