web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

在python中使用selenium获取所有href链接

我正在Python中练习Selenium,我想使用Selenium获取网页上的所有链接。 例如,我想要 http:// 上所有

回答 11 投票 0

在 Node.js 上的 Puppeteer 中触发侦听器之前获取正确的重定向

目前,我正在学习 Node.js 和 Puppeteer 库以进行抓取。我有一个关于重定向的问题。我遇到了这样的场景:我想抓取 URL 'https://www.facebook...

回答 1 投票 0

如何使用 R 抓取 google 财经,其中多个页面的页面 url 不会更改?

我想用R网络抓取不同年份的股票财务表。但是,我可以获得去年的财务表,该表显示为默认值。但我也想从

回答 1 投票 0

Puppeteer 连接 chrome 浏览器远程调试链接(localhost:9222)时出现 404 错误,如何解决?

我正在使用以下代码在现有浏览器窗口上使用 puppeteer: const browser = 等待 puppeteer.connect({ browserWSEndpoint: 'ws://localhost:9222' }); 我已经开始了 chrome win...

回答 1 投票 0

同一 div 标签内所有文本的 XPath?

“不 ” “消息” “ 成立” 我想识别div中的所有文本,并且class属性值是动态的,所以c...

回答 1 投票 0

同一 div 标签内所有文本单词的 XPath?

“不 ” “消息” “ 成立” 我想识别 div 中的所有三个单词,并且 class 属性值是动态的...

回答 1 投票 0

任何人都可以帮助我如何为同一 div 标签内的所有文本单词编写 xpath

“不 ” “消息” “ 成立” 我想识别 div 中的所有三个单词,并且 class 属性值是动态的...

回答 1 投票 0

您来自的 Selenium 模拟网站

当我通过链接 https://kinoxor.pro/650-mir-druzhba-zhvachka-2024-05-06-19-54.html 打开网址时 - 我遇到错误 - 内部服务器错误 但是当我将链接粘贴到搜索引擎http时...

回答 0 投票 0

通过 Node 的 fetch() 请求和通过浏览器请求有什么区别? [已关闭]

我正在尝试抓取一些 API 来获取公共数据。使用 Node 的 fetch 时有时会被阻止,但使用浏览器请求相同的 API 时不会被阻止。通常,如果我被阻止,我会

回答 1 投票 0

Python 中的 Scrapy 安装问题

来自 scrapy 导入选择器 # 导入请求 导入请求 url = 'https://en.wikipedia.org/wiki/巴基斯坦' # 获取网页的HTML内容 响应 = requests.get(url) # 创建 Se...

回答 1 投票 0

我如何从 geeksforgeeks 上抓取我所在大学的排行榜?

我一直在尝试通过网络抓取一个名为 GeeksForGeeks 的编码平台的排行榜。 给定的代码应该工作得很好。但这根本不起作用。 导入请求 从 BS4 导入

回答 1 投票 0

抓取谷歌地图时始终“无”

我抓取了谷歌地图,得到了几个网址,我想提取一些数据,但我不能 def get_data(path_txt): 以 open(path_txt) 作为文件: url_to_sc = [url.strip() for url in ...

回答 1 投票 0

如何查找动态网站的元素

当我尝试在 TradingView 上查找收益数据的元素时,代码不断移动,我似乎无法找到使用 Selenium 进行交互的元素。 能够与...互动

回答 1 投票 0

Scrapy 函数未调用

每当我使用 parse_quote 函数时,什么也没有发生,我只是得到一个空白的 CSV 文件,但如果我将所有报价项放入解析函数中,它就能够抓取报价。我究竟做错了什么? 定义...

回答 1 投票 0

属性错误:“DataFrame”对象在变量 netflix_data 中没有属性“append”

当我尝试使用 BeautifulSoup 学习网页抓取时,在使用 .append() 函数将数据插入字典(netflix_data)时遇到一些问题 这是我的整个源代码 进口潘...

回答 1 投票 0

如何使用 Python 将页面下载为一个文件 (MHTML)?

我想将页面下载为 .mhtml 中的单个文件,就像使用 Chrome 完成的那样:另存为 -> 另存为单个文件 我尝试过“pywebcopy”库,但它不起作用。它...

回答 1 投票 0

获取包含字符串的父元素

我正在尝试获取 div 元素的类名,该元素包含 url 中许多 div 元素之间的调用区域的信息。由于包含呼叫区域信息的div有...

回答 1 投票 0

使用cheerio抓取动态网站[重复]

我在从网站抓取数据时遇到了麻烦。我无法获取 table 的标签 ,然后我无法获取标签 和 的内容文本。我使用cheerio来爬取数据。

回答 1 投票 0

解析讨论论坛只能让我获得第一个用户评论,但不能获得其他用户回复

有人可以帮我一下吗,我似乎无法弄清楚这个问题。 我有一个 url 文件列表,如下所示: https://community.appian.com/discussions/f/administration/14/integrate-token-d...

回答 1 投票 0

我无法在 Python 中使用 Selenium 选择特定选项

我正在尝试使用 Selenium 和 Python 选择此标签中的选项“Yazar”。但是,我无法单击此按钮并选择选项“Yazar”。怎么做? 我正在尝试使用 Selenium 和 Python 选择此标签中的选项“Yazar”。但是,我无法单击此按钮并选择选项“Yazar”。如何做到这一点? <div class="col-md-8 col-sm-8 col-xs-8 form-group has-feedback"> <div class="btn-group bootstrap-select form-control required"> <button type="button" class="btn dropdown-toggle bs-placeholder btn-default" data-toggle="dropdown" role="button" data-id="frmAkademiUnvan" title="Lütfen Seçiniz"> <span class="filter-option pull-left">Lütfen Seçiniz</span>&nbsp;<span class="bs-caret"> <span class="caret"> </span> </span> </button> <div class="dropdown-menu open" role="combobox"> <ul class="dropdown-menu inner" role="listbox" aria-expanded="false"> <li data-original-index="1"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Yazar</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="2"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Senior Author</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="3"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Corresponding Author</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="4"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Eşit Katkılı Yazar</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="5"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Lisansüstü Öğrenci</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="6"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">İkinci Danışman Yazar</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="7"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Tebliği Sunan</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> </ul> </div> <select id="frmAkademiUnvan" name="yazarTur" title="Lütfen Seçiniz" data-live-search="false" class="selectpicker form-control required" required="true" tabindex="-98"> <option class="bs-title-option" value="">Lütfen Seçiniz</option> <option value="1">Yazar</option> <option value="2">Senior Author</option> <option value="3">Corresponding Author</option> <option value="4">Eşit Katkılı Yazar</option> <option value="5">Lisansüstü Öğrenci</option> <option value="6">İkinci Danışman Yazar</option> <option value="7">Tebliği Sunan</option> </select> </div> </div> 我正在分享相关的Python代码。我运行此代码来选择特定选项。然而,它并没有选择“Yazar”选项: # 15) Choose author type with WebDriverWait lutfen_seciniz_span = WebDriverWait(driver, 10).until( EC.element_to_be_clickable((By.XPATH, "//span[contains(@class, 'filter-option') and contains(text(), 'Lütfen Seçiniz')]")) ) lutfen_seciniz_span.click() # Click on "Yazar" yazar_option = WebDriverWait(driver, 10).until( EC.element_to_be_clickable((By.XPATH, "//a[@role='option' and .//span[text()='Yazar']]")) ) yazar_option.click() 我没有收到任何错误消息。终端返回空白空间。 您需要使用Selenium的Select Class来处理下拉列表/选择列表元素。 请参考以下代码: wait = WebDriverWait(driver, 10) select_node = Select(wait.until(EC.element_to_be_clickable((By.ID, "frmAkademiUnvan")))) select_node.select_by_visible_text("Yazar") 进口: from selenium.webdriver.common.by import By from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.ui import Select

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.