screen-scraping 相关问题

屏幕抓取(也称为网络抓取或数据抓取)是一种用于从用户界面收集和解析信息的软件技术。如果您的问题是关于从网站或Web-API进行抓取,请使用[web-scraping]标记。

如何检查find_element_by_partial_link_text的父元素

我正在使用find_element_by_partial_link_text选择器来查找“下一步”按钮,以便我可以单击它并继续抓取。但是,我遇到的问题是有时候“下一个”这个词是......

回答 2 投票 0

问题爬行亚马逊,元素无法滚动到视图中

我在亚马逊上抓取网页时遇到问题。我尝试过使用:执行JS脚本操作链显式等待似乎没什么用。一切都抛出一个例外或错误或另一个。基地......

回答 1 投票 2

python web scraping美丽的汤并添加到列表中

我正在尝试使用Python和BeautifulSoup学习web scrape。我的问题是当试图将“刮掉”的项目添加到新列表时,只有当我...时才显示相关标签中的最后一个条目。

回答 1 投票 0

使用* vs元素标记

我正在写一个脚本来从网上抓取一些数据。我直接从浏览器复制了不同页面上几个相同元素的XPath,产生了// * [@ id =“priceblock_dealprice”] ...

回答 2 投票 0

从javascript控制台触发Ember操作

我对Ember知之甚少,但我正试图操纵一个Ember网络应用程序。 DOM中有一个元素具有此属性“data-ember-action-981 =”981“”,我想触发该函数...

回答 1 投票 0

如何在网页中输入值,然后使用python单击复选框

我正在尝试将值输入到网页中,然后使用以下代码单击“接受”。 import urllib.request import urllib.parse import re url =“https://www.mahadiscom.in/”value = {'consumer_no':...

回答 1 投票 1

模拟网站上的点击并在C#中获得响应

我需要在网站上获取并处理每月发布的一些文件,这就是在网站上设置HTML锚点的方法:

回答 1 投票 0

在R中使用Perl正则表达式进行刮擦

当你刮掉R中的链接时使用rvest或RSelenium,你可以通过定义HTML代码的开头部分来实现,例如:给定节点内的href。如果我面对以下链接怎么办?

回答 2 投票 0

Web抓取选项 - 仅限C ++版本

我正在寻找一个用于网页抓取的优秀C ++库。它必须是C / C ++而不是其他所以请不要指导我选择HTML抓取或其他SO问题/答案,其中C ++甚至不...

回答 4 投票 34

使用Ruby中的Nokogiri刮取特定标题

我目前正在使用NYT Best Sellers网站练习网页抓取。我想在列表中获得#1书的标题并找到HTML元素:

回答 1 投票 2

bs4抓python获取内容直到特定的类名

我想抓住这个网站https://www.eduvision.edu.pk/institutions-detail.php?city=51I&institute=5_allama-iqbal-open-university-islamabad,我只想要这个网址中的单身汉数据。 ..

回答 1 投票 0

如何在python中使用selenium webdriver滚动网页进行抽搐?

我想使用Selenium滚动垂直。我已经阅读了所有现有的答案,但不是他们正在为链接工作https://www.twitch.tv/directory/all请指导这个页面是什么...

回答 2 投票 0

使用Java和Selenium刮取reactjs网站

我已经设置了所有设置来使用Java中的Selenium运行无头浏览器。我现在无法弄清楚我需要做什么来从这个ReactJS网站中提取元素(该网站包含ReactJS或......

回答 1 投票 0

python bs4 scraping:AttributeError:'NavigableString'对象没有属性'text'

我想用class =“academicsList”页面抓取ul中每个li的文本来刮取https://www.eduvision.edu.pk/institutions-detail.php?city=51I&institute=3149_federal-urdu-university-of-艺术-...

回答 1 投票 0

Linux上无头,可编写脚本的Firefox / Webkit?

我希望自动化一些网络交互,即从安全网站定期下载文件。这主要涉及输入我的用户名/密码并导航到相应的URL。一世 ...

回答 7 投票 45

R中是否有一种简单的方法来只提取HTML页面的文本元素?

R中是否有一种简单的方法来只提取HTML页面的文本元素?我认为这被称为'屏幕抓取',但我没有它的经验,我只需要一个简单的方法来提取...

回答 4 投票 22

从表格或列表中搜集数据?

我想从这个网站废弃表格数据https://escapehunt.com/uk/birmingham/booking我正在尝试这个代码,请帮助我。

回答 2 投票 0

Facebook使用cURL和PHP登录

我想用curl到达facebook登录页面。我的目的是登录facebook,然后做一些scaping。由于最新的限制,我没有使用facebook API ...我需要抓...

回答 1 投票 -1

使用Selenium和Python刮取文本值

对于ERP系统中的每个供应商(供应商总数= 800+),我正在收集其数据并将此信息作为pdf文件导出。我在Python中使用了Selenium,创建了一个名为Scraper的类,并且......

回答 3 投票 0

在Scrapy项目中使用parsel

我正在尝试使用parsel库来从Scrapy项目中的html文件中抓取元素。这是我的蜘蛛代码,名为123Spider:import scrapy import requests class 123Spider(scrapy.Spider)...

回答 2 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.