web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用PHP从HTML表中读取数据

最近我有一个问题,我要做的是从HTML表读取数据并将数据抓取到名为$ id的变量中。例如,我有这个代码: 413

回答 3 投票 2

使用jquery将数据放入表中

在从其他网站抓取数据后,我无法重新创建表的结构。我正在使用这个小提琴中的例子:http://jsfiddle.net/skelly/m4QCt/我的例子...

回答 1 投票 0

如何使用PHP仅提取html表的第二列的第二个单元格

我正在尝试使用php仅提取html表的第二列的第二个单元格。这是表格的一个例子:

回答 2 投票 0

报废信息到我的数据库(使用rethinkdb)

我想使用抓取信息创建数据库。如何将框架(totaljs)和数据库(rethinkdb)与我的报废的aps链接起来,这样当我运行废料程序时,他们就会填充数据库。我正在使用 ...

回答 1 投票 0

运行时错误91与VBA Web抓取不时

我遇到过这篇文章。我尝试了接受的答案建议的解决方案,并提出了以下代码。 Sub WebScraping()Dim appIE As Object Dim myValue As String Dim iLastRow As ...

回答 1 投票 0

Selenium在主窗口中找不到元素

我试图使用Selenium和Python 3从网站下载文件。这需要在覆盖窗口上按下确认按钮。叠加窗口不在iFrame中 - HTML ...

回答 2 投票 0

斯普林特:按风格查找

我在python上使用splinter模块。我需要检查一个元素在页面上是否可见,看起来唯一的方法是style =“display:none;”我无法找到一种方法来检测。 ...

回答 1 投票 2

从Excel电子表格导入特定单元格

我有以下电子表格,上传到:https://files.fm/u/6uhc3qwr我正在尝试导入资产负债表的特定单元格,所以在资产部分(大约第19行)我们有总电流...

回答 1 投票 1

bs4选择器未拍摄“图像:标题”

我正在制作网站刮刀,以便在网站上获取所有产品名称。在尝试找到产品的标题时,我不断收到KeyError。 HTML: https://开头...

回答 2 投票 0

即使显式等待已经存在,也无法摆脱硬编码延迟

我已经在python中编写了一些与selenium结合使用的代码来解析quora.com中的不同问题。我的刮刀正在做这件事。事情是我在这里使用硬编码延迟...

回答 1 投票 1

使用BeautifulSoup和Python 2.7登录Google网站

我正在为Quora编写一个Python Web爬虫程序,但需要使用Google登录。我搜索过网,但没有什么能满足我的问题。这是我的代码:# - * - coding:utf-8 - * - import mechanize ...

回答 1 投票 0

Python美丽的汤提取HTML元数据

我得到一些我不太明白的奇怪行为。我希望有人可以解释发生了什么。考虑这个元数据:

回答 2 投票 1

AttributeError:'NavigableString'对象没有属性,索引超出范围

可以帮忙,因为我正在努力两天,以便在此处提供的链接中检索产品的基本信息(产品名称,图片,评级,价格)。这是我的代码,我是新来的......

回答 2 投票 -1

在使用python请求进行抓取之前,请等待网页完全加载

我目前正在尝试从LinkedIn上的特定页面抓取数据。我有一个能够登录到LinkedIn的脚本,但是当我尝试访问包含数据的页面时,我遇到了麻烦。 ...

回答 1 投票 2

如何使这个爬虫更有效[关闭]

我构建了这个网络爬虫。 https://github.com/shoutweb/WebsiteCrawlerEmailExtractor //正则表达式函数扫描单个页面的电子邮件函数get_emails_from_webpage($ url)...

回答 1 投票 -5

是否有可能获得浏览器pdf查看器的HTML?

当您在浏览器中检查pdf查看器页面时,有一个html结构,但urllib2和请求都不返回任何内容,BS4进入infite循环。我只想要标题(在头部)......

回答 1 投票 0

如何从BeautifulSoup中的li标签之间的span标签中获取文本?

我正在尝试使用BeautifulSoup从网站上获取产品尺寸,但却被困在这里。我只需要获取文本:S,M,L,XL,XXL,XXXL,4XL,5XL代码:从urllib.request导入导入bs4 ...

回答 1 投票 1

如何将此字符串拆分为单个字符?

在BeautifulSoup对象中使用此html代码段... 507 3 3 ...

回答 3 投票 3

从html,JSOUP获取tabledata

从URL中提取表中数据的最佳方法是什么?简而言之,我需要从这两个表中获取实际数据:http://www.oddsportal.com/sure-bets/在这个例子中,数据会......

回答 1 投票 1


© www.soinside.com 2019 - 2024. All rights reserved.