screen-scraping 相关问题

屏幕抓取(也称为网络抓取或数据抓取)是一种用于从用户界面收集和解析信息的软件技术。如果您的问题是关于从网站或Web-API进行抓取,请使用[web-scraping]标记。

可以从这个网站的地图上抓取数据吗?

是否可以使用Python从地图中抓取数据 https://www.kiabi.com/magasins.html 我需要从每个蓝色项目符号中抓取信息。 我尝试查看源代码并找到

回答 1 投票 0

用 Selenium 刮取 div

我正在尝试选择一个元素以在页面上单击它(https://twitchtracker.com/riotgames/games)。该元素是日历弹出窗口上的可选日期。 这是 我正在尝试选择一个元素以在页面上单击它(https://twitchtracker.com/riotgames/games)。该元素是日历弹出窗口上的可选日期。 是 <div class="day unit in-range" data-time="1698822000000">1</div>. 有没有办法使用 data-time="1698822000000" 元素来选择元素。 我尝试使用 By.CSS_SELECTOR 但总是收到“无法定位元素”错误。 您可以使用 get_attribute 函数从 selenium Web 元素中获取 tag 值,如下所示: element= driver.find_element(By.XPATH,"//div[@class='day unit in-range']") date_time=element.get_attribute('date_time')

回答 1 投票 0

如何使用 python 抓取 Linkedin 帖子 url

如何截取LinkedIn上特定人员的帖子网址并将其存储到Excel文件中以供进一步使用? 我希望解决问题或代码或任何可用的 github 存储库的方法有点小……

回答 1 投票 0

当 Python 请求和 Curl 工作时,Go 语言中发出的请求会被阻止

我正在使用 golang 和 http 包制作网络抓取工具。我发送了 GET 请求,但被 Cloudflare 阻止。我想将我的工具移植到 Go,但每次尝试时,我都会陷入困境......

回答 1 投票 0

如何使用Python在浏览器中的可见屏幕下方截取网页的全屏截图

我正在尝试打开特定网页,然后对该网页进行全页屏幕截图。我知道这可以使用 Chrome 中的开发工具来完成,但我一直无法找到执行此操作的方法

回答 1 投票 0

如何从 html 标签内的整数中删除文本?

我正在尝试网络抓取,并且发现了我需要的数据。数据是几个数字,但后面有几个字符串。我的问题是,如何从整数中删除文本?对于前...

回答 1 投票 0

使用 Node.js 实时抓取网页

最好的办法是使用 Node.js 抓取网站内容。我想构建一个非常非常快的东西,可以以 kayak.com 的风格执行搜索,其中一个查询被分派到多个

回答 9 投票 0

设置专利爬虫的问题

我正在尝试设置wenyalintw专利刮刀。我终于把一切都搞定了。我去执行 cd src main.py ,它告诉我系统找不到指定的路径。 我把它重写成cd...

回答 1 投票 0

Python 单击 Redfin 收藏夹和 X-Out 按钮

对于个人用途,我想使用我的 Python Selenium 代码单击 Redfin 的“收藏夹”或“X-Out”按钮,但我无法以编程方式找到这两个按钮,并且我已经尝试了 2 天。我看得出来,但是...

回答 1 投票 0

Xpath 查询查找其后代包含特定文本的节点

为一些抓取进行一些 PHP/Xpath 编码,我想知道一个 XPath 表达式来选择具有父级的节点,该节点的父级在其后代树中的某个位置包含一个带有

回答 2 投票 0

使用selenium从动态网站中提取数据

我正在尝试从此网站中的 CSV 文件中提取参与者的姓名和已完成的模块数量 - https://learn.microsoft.com/training/challenges?id=f66f0d57-d644-44d1-9faf -

回答 2 投票 0

HTTPX 返回 403,但请求 200。Python

我正在尝试解析一个网站。我只是通过设置用户代理来发送裸露的http请求。 令人惊讶的是使用“requests”的请求如何返回 200 响应。但使用

回答 1 投票 0

AttributeError:“SeleniumClient”对象没有属性“Edge_options”我的错误是什么?

我是这个平台的新手,如果我询问的方式有误,我很抱歉。 我想使用 selenium 从 twitter(X) 获取数据,但有问题,我不明白。 我想用边缘...

回答 1 投票 0

如何提取特定文本并保存在数据框中

我是网络抓取的新手。我已经成功编写了这段代码,但无法获取文本 有什么帮助或建议吗? 导入请求 从 bs4 导入 BeautifulSoup 将 pandas 导入为 pd url = 'ht...

回答 1 投票 0

AttributeError:抓取 Ebay 产品标题时,“NoneType”对象没有属性“text”

按照本教程使用 Python 创建 Ebay 价格跟踪器,我在尝试从...获取产品标题时遇到了 AttributeError: 'NoneType' 对象没有属性 'text'

回答 1 投票 0

Selenium Web 抓取 C# 尝试返回一个值

我尝试从名为 Bidding Ends 的字段返回日期和时间值: 我尝试过其他代码组合,但似乎无法弄清楚 使用 OpenQA.Selenium; 使用 OpenQA。

回答 1 投票 0

获取:使用 Scrapy 抓取笔记本电脑数据时爬行(302)

我想从 https://www.newegg.com/tools/laptop-finder 抓取屏幕类型和标题等数据 但我被困住了,因为我的脚本被抓取但未被抓取 该网站的 HTML 代码是 ...

回答 1 投票 0

Cloudflare绕过python

我正在尝试解析具有 cloudflare 保护的网站。 在我使用过的大多数 cloudflare 网站上,从浏览器中提取 cf_clearance cookie 并将其粘贴到 re...

回答 3 投票 0

将给定 URL 中的 HTML 表格抓取到 CSV 中

我寻找一个可以在命令行上运行的工具,如下所示: tablecrape 'http://someURL.foo.com' [n] 如果未指定 n 并且页面上有多个 HTML 表格,则应该对它们进行汇总 (

回答 3 投票 0

仅识别与新闻稿页面相关的链接

我的任务是找到给定链接的实际新闻稿链接。例如,说 http://www.apple.com/pr/。 我的工具必须从上面单独找到新闻稿链接...

回答 5 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.