screen-scraping 相关问题

屏幕抓取(也称为网络抓取或数据抓取)是一种用于从用户界面收集和解析信息的软件技术。如果您的问题是关于从网站或Web-API进行抓取,请使用[web-scraping]标记。

仅从公司名称列表中抓取电子邮件

我在 Excel 电子表格上有 10,000 个公司名称的列表,没有 URL,我正在寻找一个提取器 用python编写,提取每个公司名称的电子邮件地址并保存后

回答 1 投票 0

在抓取 EdX 视频时检查 Puppeteer 中的响应时无法检测到视频文件

我正在创建一个机器人,它将浏览 EdX 上的一些视频并下载它们,在每个响应中,我都会检查标题以确定内容是否是视频、签入方式...

回答 1 投票 0

Python/网页抓取 |如何使用selenium从不同网站获取信息并编译excel文件?

因此,我很感兴趣地编写了一些代码,可以抓取 Clash Royale 网站,根据游戏中的不同部落提取信息,然后将其编译到 Excel 电子表格中。我是……

回答 1 投票 0

如何解决从 R 读取雅虎财经时出现的 HTTP 错误 503?

以下代码 rvest::read_html("https://finance.yahoo.com/quote/VWIUX") 产生 open.connection(x, "rb") 中的错误:HTTP 错误 503。 我知道网址没问题,因为粘贴...

回答 1 投票 0

为什么我尝试从 GlassDoor 抓取时状态代码为 403?

我正在尝试从玻璃门上抓取工作信息。类似的代码结构对于 LinkedIn 来说效果很好,但我在这里遇到了问题。我收到的状态代码为 403,所以我猜我遇到了一些问题......

回答 1 投票 0

从 Powershell 中获取修剪文本

我正在从网站上抓取版本信息。我能够获取信息,但无法在不格式化的情况下获取信息。当前的目标是 ID 为 j_idt19 的 DIV 标记。有没有办法获得

回答 1 投票 0

用 Selenium 抓取总统演讲

我一直在使用 BS4 进行抓取,但之前从未使用过 Selenium。现在我想我做到了。我在政府网站上创建了一个旧总统演讲的链接列表 - 这是一个例子。 (这是公开的

回答 1 投票 0

抓取用 php 构建的电子商务网站

webiste 是 Windows 服务器上的 php 尝试了从获取 html 和文本值开始的所有操作,但我需要自动化根据我的要求(例如产品分辨率和所有功能)格式化这些值...

回答 1 投票 0

分页,用scrapy下一页

下一页按钮按下时不会更改网址,所以我对 scrapy 有问题。 ''' 导入scrapy 类 LegonSpider(scrapy.Spider): 名称=“勒贡” def start_requests(

回答 1 投票 0

从 Python 中刷新的 javascript 页面中抓取数据

我尝试从网站 https://bloks.io/live 抓取一些数据 第一个问题是我无法访问该表中的刷新数据。我的想法是检查第一列是否发生变化。我...

回答 1 投票 0

使用 SellerMagnet Scraping API Json 错误查找亚马逊产品销售数据

我是编码新手,我从我的第一个项目开始,我试图编写一个能够抓取 asin 的亚马逊脚本。我正在使用 sellermagnet 提供的抓取 api...

回答 1 投票 0

使用带有输入参数的 httparty 的简单 ruby 请求

我正在学习 ruby 并尝试在命令行上执行简单的 ruby 请求来抓取网站。有 2 个输入元素,其 ids =“tb_radius_miles”和“locationSearchTextBox”...

回答 1 投票 0

网站多个层面的网页抓取

我有一个关于网站多层网络抓取的问题。例如,我有一个关于美国选举的网站,有两层。 第一层:状态信息:包括50个状态。 一旦我...

回答 1 投票 0

网站多层的网页抓取

我有一个关于网站多层网络抓取的问题。例如,我有一个关于美国选举的网站,有两层。 第一层:状态信息:包括50个状态。 一旦我...

回答 1 投票 0

如何更改 scrapy-playwright 中的 context_count

我想知道如何更改 scrapy-playwright 中的 context_count 。 我认为我们还需要更改 max_concurrent 。它是否正确? '剧作家/context_count':1, '剧作家/context_count/

回答 1 投票 0

发送表单数据到aspx页面

有需要在网站上搜索一下 url = r'http://www.cpso.on.ca/docsearch/' 这是一个 aspx 页面(我从昨天开始这个长途跋涉,抱歉新手问题) 使用美丽...

回答 1 投票 0

我可以通过编程方式登录网站而不以明文形式存储密码吗?

我做了许多涉及自动提交表单和/或从网站检索数据的项目。其中一些网站需要用户名/密码身份验证。 (这些网站没有AP...

回答 6 投票 0

从 LinkedIn URL 抓取网页轻松应用按钮

我正在寻找一个工具或脚本,可以抓取 D 列中的 Linkedin URL 职位发布,并返回 E 列中的 Easy Apply 或 Apply 的结果。我有一个包含 1,000 多个链接的列表,我想知道。 ..

回答 1 投票 0

无法使用curl模拟此浏览器请求

我正在尝试从网站上抓取产品(例如https://www.violetgrey.com/en-us/shopping/the-rich-cream-18105401)。虽然在浏览器上它可以正常加载,但当我复制初始的curl请求时......

回答 2 投票 0

为什么浏览器中的网页关闭得这么快?

抱歉我的英语不好 当我尝试使用 Pool 打开多个窗口浏览器时 - 它立即关闭。 我想这已经发生了,当然我收到了这个错误(我最近开始收到这个错误,当...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.