web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

解析讨论论坛只能让我获得第一个用户评论,但不能获得其他用户回复

有人可以帮我一下吗,我似乎无法弄清楚这个问题。 我有一个 url 文件列表,如下所示: https://community.appian.com/discussions/f/administration/14/integrate-token-d...

回答 1 投票 0

我无法在 Python 中使用 Selenium 选择特定选项

我正在尝试使用 Selenium 和 Python 选择此标签中的选项“Yazar”。但是,我无法单击此按钮并选择选项“Yazar”。怎么做? 我正在尝试使用 Selenium 和 Python 选择此标签中的选项“Yazar”。但是,我无法单击此按钮并选择选项“Yazar”。如何做到这一点? <div class="col-md-8 col-sm-8 col-xs-8 form-group has-feedback"> <div class="btn-group bootstrap-select form-control required"> <button type="button" class="btn dropdown-toggle bs-placeholder btn-default" data-toggle="dropdown" role="button" data-id="frmAkademiUnvan" title="Lütfen Seçiniz"> <span class="filter-option pull-left">Lütfen Seçiniz</span>&nbsp;<span class="bs-caret"> <span class="caret"> </span> </span> </button> <div class="dropdown-menu open" role="combobox"> <ul class="dropdown-menu inner" role="listbox" aria-expanded="false"> <li data-original-index="1"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Yazar</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="2"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Senior Author</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="3"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Corresponding Author</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="4"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Eşit Katkılı Yazar</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="5"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Lisansüstü Öğrenci</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="6"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">İkinci Danışman Yazar</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> <li data-original-index="7"> <a tabindex="0" class="" style="" data-tokens="null" role="option" aria-disabled="false" aria-selected="false"> <span class="text">Tebliği Sunan</span> <span class="glyphicon glyphicon-ok check-mark"> </span> </a> </li> </ul> </div> <select id="frmAkademiUnvan" name="yazarTur" title="Lütfen Seçiniz" data-live-search="false" class="selectpicker form-control required" required="true" tabindex="-98"> <option class="bs-title-option" value="">Lütfen Seçiniz</option> <option value="1">Yazar</option> <option value="2">Senior Author</option> <option value="3">Corresponding Author</option> <option value="4">Eşit Katkılı Yazar</option> <option value="5">Lisansüstü Öğrenci</option> <option value="6">İkinci Danışman Yazar</option> <option value="7">Tebliği Sunan</option> </select> </div> </div> 我正在分享相关的Python代码。我运行此代码来选择特定选项。然而,它并没有选择“Yazar”选项: # 15) Choose author type with WebDriverWait lutfen_seciniz_span = WebDriverWait(driver, 10).until( EC.element_to_be_clickable((By.XPATH, "//span[contains(@class, 'filter-option') and contains(text(), 'Lütfen Seçiniz')]")) ) lutfen_seciniz_span.click() # Click on "Yazar" yazar_option = WebDriverWait(driver, 10).until( EC.element_to_be_clickable((By.XPATH, "//a[@role='option' and .//span[text()='Yazar']]")) ) yazar_option.click() 我没有收到任何错误消息。终端返回空白空间。 您需要使用Selenium的Select Class来处理下拉列表/选择列表元素。 请参考以下代码: wait = WebDriverWait(driver, 10) select_node = Select(wait.until(EC.element_to_be_clickable((By.ID, "frmAkademiUnvan")))) select_node.select_by_visible_text("Yazar") 进口: from selenium.webdriver.common.by import By from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.ui import Select

回答 1 投票 0

如何使用python绕过验证码

我知道关于这个问题还有很多其他问题,但它们似乎……已经过时了(?)或者至少,它们不再起作用了。我尝试了多种方法,例如代理轮换器、自定义代理列表(w...

回答 1 投票 0

如何使用网络抓取器保持登录彭博社,然后快速抓取文章的完整内容?

总体目标 使用 nodeJS,我希望能够使用用户凭据登录 Bloomberg,然后以登录用户身份进行抓取。最好不要使用 Selenium,因为根据我的经验,Selenium 是......

回答 1 投票 0

为什么从标签.get_attribute获取的值不能以键值对的形式存储在字典中?

我目前无法将对 Selenium 中的标签执行 .get_attribute 获得的值存储到字典中,特别是标题和 href,如下面的代码所示。我正在尝试存储...

回答 1 投票 0

如何使用Python抓取交互式网页

我想知道如何抓取以下网站:http://chonos.ifop.cl/flow/ 该网页的右侧有一个地图,当您单击每个点时,它会显示在 Highcharts 中的左侧时间序列中

回答 1 投票 0

为什么我的五个字母单词抓取工具返回 TypeError: 'NoneType' 对象不可迭代

导入请求 从 bs4 导入 BeautifulSoup 进口云刮 从 pathlib 导入路径 def FiveLetterWordScrapper(): 页码 = 1 而页数!= 51: scraper = cloudscraper.CloudScrape...

回答 1 投票 0

解析/抓取/python/requests/BeautifulSoup4。如何解析这个网站?

网站:https://www.nieruchomosci-online.pl/szukaj.html?3,mieszkanie,wynajem,,Szczecin:19503 我想解析所有广告,除了特色广告。问题是有不同的类......

回答 1 投票 0

美丽的汤找到所有点击按钮后找不到div

我正在尝试废弃这个网站。 当我尝试废弃与汽车设备网格相关的数据时,会出现此问题。我只能提取页面中已显示的元素,即使我

回答 1 投票 0

如何使用Python抓取HTML?

我正在编写一个Python脚本来从此页面抓取数据:https://www.immobiliare.it/search-list/?criterio=rilevanza&__lang=it&idContratto=1&idCategoria=1&raggio=300¢ro=45。

回答 1 投票 0

无法使用RSelenium从网站获取信息

我想使用RSelenium来抓取网页以检查某个文本是否存在。 我需要单击 Staatsangehörigkeitsangelegenheiten,然后单击 02. Antrag Einbürgerung [抱歉,

回答 1 投票 0

如何通过Nodejs下载m3u8扩展名的视频

我正在寻找通过nodejs https模块下载视频,但问题是当我尝试检查视频网址的来源时,视频以.m3u8扩展名结尾,我找到了每个人的视频列表

回答 1 投票 0

尝试测试从雅虎财经抓取的代码

我是Python初学者,但我喜欢通过测试和尝试来学习这门语言。 所以有一个雅虎网络抓取代码可以抓取特定股票的最后价格,但它对我不起作用我......

回答 2 投票 0

使用 Python 进行网页抓取,无需分页网站

我使用 Selenium 和 BS4 从网站上抓取数据并将其保存到 json 文件中。由于没有分页结构,我将网络驱动程序与selenium一起使用,但在添加selenium之前,而我的旧代码...

回答 1 投票 0

为什么BeautifulSoup无法从HTML中找到特定的表格元素?

我无法获取代码来查找比赛表格表中找到的文本(在下面的元素中突出显示)。实际获取该文本的适当元素是什么? 导入请求 从 BS4 导入

回答 1 投票 0

我在使用 BeautifulSoup 代码在网页中查找 td 类文本时遇到问题

我无法获取代码来查找比赛表格表中找到的文本(在下面的元素中突出显示)。实际获取该文本的适当元素是什么? 导入请求 从 BS4 导入

回答 1 投票 0

点击 python 中的复选框后抓取数据

我正在尝试从这个职业网站上抓取一些链接。问题是,在抓取链接之前,我需要选择一个特定的品牌(比如 Sierra)。问题是如何单击下拉菜单并检查...

回答 1 投票 0

Selenium 单击存储在变量中的已知元素

我正在使用Scrapy和Selenium。 scrapy 完成一些工作后,我将可点击元素存储在变量中,因此我认为 driver.find_element_by 不是必需的,因为元素已经已知。所以我...

回答 1 投票 0

使用 Python BrickEconomy 网站进行数据抓取

我正在使用我编写的代码从网站“https://www.brickeconomy.com/sets/year/2024”抓取数据。我设法从表中提取乐高套装的名称,但我无法访问...

回答 1 投票 0

来自黑客新闻网站的 BeautifulSoup(bs4) 网页抓取

我的问题是我无法找到与锚标记对应的类来获取与“Apple介绍M4芯片”关联的url。 黑客新闻网页检查 怎么...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.