web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

刮刮ASPX表格并避免使用Selenium

我之前曾问过(见这里)如何从ASPX表单中删除结果。表单在新选项卡中呈现输出(通过使用JS中的函数window.open)。在我之前的帖子中,我没有制作......

回答 1 投票 0

使用beautifulsoup刮擦地图坐标

我正试图刮去拍摄闪烁照片的坐标。我尝试抓住这个'a'块:

回答 1 投票 0

Python BeautifulSoup找到next_sibling

我有一些漂亮的汤的HTML代码问题。我无法弄清楚如何通过整个HTML文档来找到我正在寻找的其他东西。我有这个代码......

回答 2 投票 2

使用BeautifulSoup刮取Twitter内容

如何根据我抓取的Twitter内容制作列表?我从推文中删除了内容,现在我想制作一个列表来操纵它。我怎么这样?我在这里使用python 3.6 ...

回答 1 投票 0

使用Python Scrapy从“https://realtruck.com/p/rugged-ridge-floor-mats/”获取数据

我正试图从“https://realtruck.com/p/rugged-ridge-floor-mats/”获取数据,但问题是他们改变了布局。现在我尝试获取DropDown列表。问题:列表灵活可能5 ...

回答 1 投票 0

使用bs4在python中使用regex从脚本中搜索电子邮件地址

我正试图从电子邮件嵌套在脚本中的网站上抓取电子邮件地址,而简单的“find / findAll + .text”并没有这么做。源码html:EMLink('com','...

回答 2 投票 -1

Web抓取表可以从错误的数据中正确读取

我试图从ESPN Neo York Knicks 2019中抓住这张桌子,然而从网站上数据不同于实际上正在被刮掉所以在确保我正确地进行并搜索...

回答 2 投票 4

从网页上抓取youtube链接

我一直试图从网页上抓取youtube链接,但没有任何效果。这是我一直试图抓住的图片。这是我最近尝试过的代码:youtube_link = soup ....

回答 1 投票 0

如何将多个字典组成一个字典?

我的目标是制作一个包含内容部分标题的词典以及与之相关的链接(在可汗学院的页面上)。这是我的代码:从bs4导入BeautifulSoup导入来自...

回答 1 投票 0

如何使用“请求”模块在网站内进行搜索?

我想在网站上搜索不同的公司名称。网站链接:https://www.firmenwissen.de/index.html在这个网站上,我想使用搜索引擎和搜索公司。这里是 ...

回答 1 投票 0

如何使用bs4抓取XML网站?

我正在解析销售电子产品的网站..具体来说,我希望在解析基于xml的网站时收集我遇到的一个小问题的产品的名称和价格....这是......

回答 1 投票 0

Scrapy Spider仅返回空白字符

我正在尝试从以下网址获取数据:https://www.cheyennecity.org/Jobs.aspx?UniqueId = 86&From = Professional -86&CommunityJobs = false &JobID = Mr. -Planning-Technician-MPO-933我...

回答 1 投票 0

Python Web抓取错误:使用split函数后,'NoneType'对象不可调用

我是初学者,正在编写我的第一个抓稿,试图从下一页中提取公司名称,电话号码和电子邮件。到目前为止,我的脚本成功地提取了姓名和电话号码,但......

回答 2 投票 0

获取html标签的文本内容,例如python的js textcontent属性

我想获得每个标签的全文内容。例如,如果我们有这样的东西:html_code =“”“ hellotherehow are you?

回答 1 投票 0

使用Beautifulsoup从不同的网站联系信息收集

我从一个网站上拿了一张公司名称和注册号码的表格。此表中的问题是,它不包含受尊敬公司的地址。现在我的工作是使用公司名称,我必须......

回答 1 投票 0

Web Scraping平台效率

网页抓取在Windows或Ubuntu上是否有效?从网上抓取哪些更好的scrapy或漂亮的肥皂?

回答 1 投票 -4

selenium下载带有url的excel文件,但只是获取js代码

我尝试用它的url下载excel文件,但我只能得到js代码,我不知道如何获得正确的文件,而不仅仅是js代码。我的代码:# - * - 编码:utf-8 - * - 来自selenium import webdriver ...

回答 1 投票 1

如何知道正在运行的查询以获取网站中的数据以及如何将其提取到Python中

我想获取日平均温度,可在网站https://www.wunderground.com/history/daily/pk/karachi/OPKC/date/2017-1-3上找到。但我没有得到任何价值,或者我只是复制......

回答 1 投票 -2

Python + scrapy + web scraping:页面没有被抓取

我想从这个页面中删除电影标题:https://www.imdb.com/list/ls055386972/。我写了以下代码:scrapy从scrapy导入scrapy导入蜘蛛从scrapy.http import请求导入重新...

回答 3 投票 0

使用selenium使用jscript _doPostBack链接显示“下一个”搜索结果

在jobquest网站(http://jobquest.detma.org/JobQuest/Training.aspx)的搜索结果中,我想使用selenium点击“下一步”链接,以便下一个20条记录的分页结果表...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.