screen-scraping 相关问题

屏幕抓取(也称为网络抓取或数据抓取)是一种用于从用户界面收集和解析信息的软件技术。如果您的问题是关于从网站或Web-API进行抓取,请使用[web-scraping]标记。

Web 抓取反应组件,仅在视图中呈现 [重复]

我想抓取一个 React 网站,但组件只有在可见时才会添加到 DOM。 有办法解决这个问题吗?

回答 0 投票 0

使用 python beautiful soup 和 selenium 发布从人类微生物项目 (HMP) 抓取动态表数据

我正在使用 python(漂亮的汤和硒)从 HMP 网站的“文件 UUID”列中抓取动态表数据。出于某种原因,我能够从 t... 中提取所有数据

回答 1 投票 0

我想用 200 个网址提取我的 Excel 工作表中的数据,我想从这些网址中提取数据

headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',} df = pd.read_excel(" C:\Users\CSEv L031\Downloads...

回答 0 投票 0

使用 python 请求访问 Xml

我需要使用 python 请求访问 XML,我也可以使用 minidom。 我的 XML 是这样的; 我有使用 python 请求访问 XML 的要求,我也可以使用 minidom。 my XML is like this; <Asset href = ""; id = ""> <Attribute name = "name">naveen123</Attribute> <Attribute name = "name.email">[email protected]</Attribute> <Attribute name = "name.mobile">123456</Attribute> <Attribute name = "name.phone">43567</Attribute> </Asset> I can able to get the ID from the Asset tag by using this getElementsByTagName("Asset") and using the getAttribute(id). By Doing the same method I am getting all the attributes also, but how do i get the actual values in a attributes. example: how to get the actual name and phone number in the attribute I am new to web scraping, can anybody help on this. 我做了一些研究并完成了教程,但没有帮助

回答 0 投票 0

剧作家处理 JS 发起的请求并检索响应以进行抓取

总体目标是使用 Playwright for Python 来抓取网页。 然而,网页有一些动态呈现的信息,比如谷歌地图。我需要能够得到经度和纬度...

回答 0 投票 0

我想让 Scrapy 做一些非常具体的事情,我不会空手而归

好的,所以我在电子表格上有超过 1k 的潜在客户,我想联系他们,但我仍然缺少一件事:所有者的名字。 所以我在继续尝试之前尝试询问 chatgpt ...

回答 0 投票 0

如何在python报废中只选择第二类?

网站 https://televize.heureka.cz/samsung-qe43q60b 我试图只从一节课中获取内容,但它们在这里出现了两次,而且我在互联网上的任何地方都找不到答案超过一个小时。

回答 1 投票 0

Proxycurl api 没有正确返回数据

首先,我很抱歉收到这么长的消息,但我有一个问题阻碍了我推进我的项目:首先让我快速解释一下工作流程,用户输入搜索查询 -> 出海...

回答 1 投票 0

我正在使用 Selenium 创建一个 Python 网络抓取程序,但我遇到了以下错误:Stacktrace

我正在制作一个程序,用 Selenium 在谷歌上抓取照片。 但我有一个问题。 我的代码在这里。 # 导入模块 导入请求 从 bs4 导入 BeautifulSoup 从 selenium 导入 webdriver ...

回答 0 投票 0

添加不和谐缩略图的问题

当链接是网站的直接链接时,无法将不和谐图像嵌入缩略图字段。 例如。 - 不起作用: https://www.sevenstore.com/images/products/medium/4091615.jpg 有效:...

回答 1 投票 0

如何用selenium选择div中的某个元素

我正在抓取一个页面,我需要选择某个元素但是有多个元素,它是这样显示的: ... 我正在抓取一个页面,我需要选择某个元素但是有多个元素,它是这样显示的: <div data-v-513c5331="" class="flex text-xs border-b h-9">...</div> 我知道我可以使用像:nth-child() 和 :nth-of-type() 这样的方法,但它们不起作用,因为我必须从不同的页面中选择它,而且它们并不总是在相同的位置。 该元素有另一个元素,里面有一个文本:“pinnacle”,也许使用该文本来引用外部元素?那可能吗?或者其他方式 参见下面的 XPATH 表达式。此 XPATH 将定位带有文本 pinnacle 的元素的前一个元素 语法: //*[text()='pinnacle']//preceding::tagname[1] 尝试使用此 XPATH 并查看它是否找到所需的元素。

回答 1 投票 0

使用 Python/Selenium 重用 chrome 实例

我从谷歌找到了一些信息,但不完全是我需要的。 我们注意到我们的脚本在运行期间打开了大约 9 个 chrome 实例。我们希望它只使用一个然后去...

回答 0 投票 0

如何在 Windows 上使用 Rust 获取特定窗口的屏幕截图?

我想知道如何截取特定窗口的一部分。应用程序顶部可能有一个覆盖层(游戏覆盖层)隐藏了我感兴趣的内容。我想...

回答 1 投票 0

迭代网格以获得库存/缺货

我正在练习抓取,想知道我如何只能从 HTML 中获取“有货”值并在缺货时打印“OOS”。 您可以在“div id=productSizesStock”中看到所有

回答 0 投票 0

Pyhton Selenium 没有这样的元素 Everytings correct

我想使用 Python 和 Selenium 在这个网站上抓取比赛结果。结果存储在表中的 tr 标签中,但我尝试了几种方法,但无法找到

回答 0 投票 0

使用 Puppeteer 定时抓取网页截图

我有一个 Puppeteer 功能,可以通过在设定的时间间隔截取屏幕截图来回放网站的加载: const getScreenshots = async (browser, url, ms, frames): Promise => { ...

回答 3 投票 0

Python 请求,加载 AJAX 内容

我正在尝试从 URL https://careers.sega.co.uk/vacancies?f%5B0%5D=country%3AUnited%20Kingdom 中删除所有“可用的职位空缺” 我写了以下代码: 导入请求 定义世嘉()...

回答 1 投票 0

C# 在 aspx 页面上遇到屏幕抓取问题

我在抓取从网站回传中获取的一些 HTML 时遇到了一些问题。这是一个 aspx 页面,我试图从中获取生成的 HTML。 我查看了 cookie 数据和 sess...

回答 1 投票 0

提交表格后得到回复的问题

我正在尝试在此网站上提交表格 https://free-mp3-download.net/ ID 是 q(就像尝试复制输入歌曲并按搜索按钮一样)通常在您搜索某些内容时...

回答 0 投票 0

使用 Selenium/Python 的 CSS 选择器中的 OR 条件

希望你一切都好。 我正在抓取某些网站的徽标。我正在使用下一个代码来本地化它们。我不只使用 * 标签,因为包含子字符串 'logo' 的类或属性...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.