screen-scraping 相关问题

屏幕抓取(也称为网络抓取或数据抓取)是一种用于从用户界面收集和解析信息的软件技术。如果您的问题是关于从网站或Web-API进行抓取,请使用[web-scraping]标记。

使用 2 个 .aspx 表单下拉菜单进行网页抓取

我正在尝试在 R 中抓取此表单 - https://profiles.doe.mass.edu/statereport/enrollmentbygrade.aspx。该表单有两个下拉菜单:“报告类型”和“年份”。我一直使用此回复作为指导...

回答 1 投票 0

加拿大邮政的 CURL/屏幕抓取递送跟踪详细信息

我需要从加拿大邮政网站获取递送跟踪详细信息,该网站不提供 API。 我制定了一个 URL,当输入浏览器时正确返回跟踪信息...

回答 4 投票 0

如果请求相同,如何抓取无限滚动网站?

我正在尝试使用 API(一个无限滚动网站)从 Behance 提取数据。当您滚动时,新产品和请求将开始出现。现在我知道哪些请求包含该项目的数据...

回答 1 投票 0

如果请求相同,如何抓取无限滚动网站?

我正在尝试使用 API(一个无限滚动网站)从 Behance 提取数据。当您滚动时,新产品和请求将开始出现。现在我知道哪些请求包含 pro 的数据...

回答 1 投票 0

仅从公司名称列表中抓取电子邮件

我在 Excel 电子表格上有 10,000 个公司名称的列表,没有 URL,我正在寻找一个提取器 用python编写,提取每个公司名称的电子邮件地址并保存后

回答 1 投票 0

在抓取 EdX 视频时检查 Puppeteer 中的响应时无法检测到视频文件

我正在创建一个机器人,它将浏览 EdX 上的一些视频并下载它们,在每个响应中,我都会检查标题以确定内容是否是视频、签入方式...

回答 1 投票 0

Python/网页抓取 |如何使用selenium从不同网站获取信息并编译excel文件?

因此,我很感兴趣地编写了一些代码,可以抓取 Clash Royale 网站,根据游戏中的不同部落提取信息,然后将其编译到 Excel 电子表格中。我是……

回答 1 投票 0

如何解决从 R 读取雅虎财经时出现的 HTTP 错误 503?

以下代码 rvest::read_html("https://finance.yahoo.com/quote/VWIUX") 产生 open.connection(x, "rb") 中的错误:HTTP 错误 503。 我知道网址没问题,因为粘贴...

回答 1 投票 0

为什么我尝试从 GlassDoor 抓取时状态代码为 403?

我正在尝试从玻璃门上抓取工作信息。类似的代码结构对于 LinkedIn 来说效果很好,但我在这里遇到了问题。我收到的状态代码为 403,所以我猜我遇到了一些问题......

回答 1 投票 0

从 Powershell 中获取修剪文本

我正在从网站上抓取版本信息。我能够获取信息,但无法在不格式化的情况下获取信息。当前的目标是 ID 为 j_idt19 的 DIV 标记。有没有办法获得

回答 1 投票 0

用 Selenium 抓取总统演讲

我一直在使用 BS4 进行抓取,但之前从未使用过 Selenium。现在我想我做到了。我在政府网站上创建了一个旧总统演讲的链接列表 - 这是一个例子。 (这是公开的

回答 1 投票 0

抓取用 php 构建的电子商务网站

webiste 是 Windows 服务器上的 php 尝试了从获取 html 和文本值开始的所有操作,但我需要自动化根据我的要求(例如产品分辨率和所有功能)格式化这些值...

回答 1 投票 0

分页,用scrapy下一页

下一页按钮按下时不会更改网址,所以我对 scrapy 有问题。 ''' 导入scrapy 类 LegonSpider(scrapy.Spider): 名称=“勒贡” def start_requests(

回答 1 投票 0

从 Python 中刷新的 javascript 页面中抓取数据

我尝试从网站 https://bloks.io/live 抓取一些数据 第一个问题是我无法访问该表中的刷新数据。我的想法是检查第一列是否发生变化。我...

回答 1 投票 0

使用 SellerMagnet Scraping API Json 错误查找亚马逊产品销售数据

我是编码新手,我从我的第一个项目开始,我试图编写一个能够抓取 asin 的亚马逊脚本。我正在使用 sellermagnet 提供的抓取 api...

回答 1 投票 0

使用带有输入参数的 httparty 的简单 ruby 请求

我正在学习 ruby 并尝试在命令行上执行简单的 ruby 请求来抓取网站。有 2 个输入元素,其 ids =“tb_radius_miles”和“locationSearchTextBox”...

回答 1 投票 0

网站多个层面的网页抓取

我有一个关于网站多层网络抓取的问题。例如,我有一个关于美国选举的网站,有两层。 第一层:状态信息:包括50个状态。 一旦我...

回答 1 投票 0

网站多层的网页抓取

我有一个关于网站多层网络抓取的问题。例如,我有一个关于美国选举的网站,有两层。 第一层:状态信息:包括50个状态。 一旦我...

回答 1 投票 0

如何更改 scrapy-playwright 中的 context_count

我想知道如何更改 scrapy-playwright 中的 context_count 。 我认为我们还需要更改 max_concurrent 。它是否正确? '剧作家/context_count':1, '剧作家/context_count/

回答 1 投票 0

发送表单数据到aspx页面

有需要在网站上搜索一下 url = r'http://www.cpso.on.ca/docsearch/' 这是一个 aspx 页面(我从昨天开始这个长途跋涉,抱歉新手问题) 使用美丽...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.