screen-scraping 相关问题

屏幕抓取(也称为网络抓取或数据抓取)是一种用于从用户界面收集和解析信息的软件技术。如果您的问题是关于从网站或Web-API进行抓取,请使用[web-scraping]标记。

自动从大量网址中抓取以提取特定文本

我正在尝试自动从一大堆URL中进行抓取以提取特定文本。网站URL可以分为一组,其中一组可以是:https://aecom.jobs/mackay-aus/senior-water -...

回答 1 投票 -1

Python中的聊天机器人可以接受用户输入的变量

[我只是打算创建一个机器人,当用户输入'fetch','scrape'之类的关键字作为查询时,以网站的网址作为输入,并使用scrapy包将其抓取所需的网页...] >

回答 1 投票 0

如何使用硒python查找相对于特定WebElement的先前WebElement

我有以下HTML代码段。 行星 木星 火星 星星

回答 1 投票 0

使用Selenium和Python进行动态刮擦不会产生任何结果

我正在尝试使用硒来刮除以下页面以获得所有工厂的名称:https://bangladeshaccord.org/factories我正在使用以下代码:from bs4 import BeautifulSoup ...

回答 3 投票 0

Scrapy-在两个变量之间拆分选择器部分

我在使用Spider脚本抓取数据时遇到了问题,即使在scrapy shell中测试类似的代码也可以。唯一的区别是在我的脚本中,我拆分了选择器。在这里...

回答 1 投票 0

Maps餐馆列表刮cra

[我正在尝试使用python硒从googlemaps刮刮城市中的餐厅列表,但是,我无法使用我尝试的代码提取元素(餐厅名称)。使用...

回答 1 投票 0

Python-将两个for循环连接到数组中

我是python的新手,可以随时随地学习,试图结合来自多个教程的知识来解决我的问题。本质上,我希望刮除下面的网站,以提取所有...

回答 1 投票 0

在Python Selenium上查找元素-短一个元素

我在硒上看到函数“ find_elements_by_css_selector”上一个非常奇怪的错误。应用应该返回10个元素的选择器,它将在所有不同页面上一致地返回9……

回答 1 投票 -1

我正在尝试抓取,但命令提示符未打印任何内容。我在做什么错?

我正在尝试打印标题。这是我的代码:`来自bs4的导入请求import BeautifulSoup base_url ='http://www.nytimes.com'r = request.get(base_url)r_html = r.text soup = ...

回答 1 投票 0

是否有任何python lib可以抓取搜索引擎的结果?

我正在寻找一个python库,以从搜索引擎(谷歌,雅虎,必应等)中抓取结果。我只为Google找到-> http://github.com/kevinw/xgoogle/tree / ...

回答 4 投票 0

用漂亮的汤刮网寻找动物

在我的示例中,我试图从搜索引擎网站上抓狗,因为它是博美犬,我不确定汤里应该放什么。find_all这就是我所做的:url =“ https://www.winwin.co .il / Animals / ...

回答 1 投票 0

是否可以自动化彭博终端机的任务?

我可以在同一台计算机上访问Bloomberg终端和python。我尝试在Internet上和该论坛上查看一些有关自动执行Bloomberg任务的有用提示/介绍,尽管我没有...

回答 2 投票 0

Python网络抓取:如何跳过网址错误

我正在尝试抓取网页(“ coinmarketcap”)。我正在抓取所有加密货币从2013年到2019年10月的数据(开盘,最高,最低,收盘,市值,交易量)。对于范围(0,name_size)中的j:...

回答 2 投票 1

计算屏幕覆盖率

[这是我的问题:我正在撰写与网页设计相关的论文,并且我希望计算某些网页元素所占图像的百分比。我有500张截图的集合...

回答 1 投票 1

使用Beautiful Soup 4使用连字符提取属性的值

我正在使用beautifulsoup 4遍历我的标签。我具有以下标签内容,并且无法提取'data-event-name'属性的属性值。我要的是“ 15:02”。 ...

回答 1 投票 -1


如何从JavaScript呈现的响应页面下载最高分辨率的图像?

假设这是网站页面:“ https://www.dior.com/zh_cn/products/couture-943C105A4655_C679-technical-fabric-cargo-pant-covered-in-tulle”,我想从中下载所有内容...

回答 1 投票 0

无法使用Scrapy将请求发布到URL

这里是实际代码:类TestSpider(scrapy.Spider):name ='test'start_urls = ['https://www.appraisers.org/find-an-appraiser'] def parse(自身,响应): viewstate = response.selector ....

回答 1 投票 0

方法不允许使用第一个API

通过一些Web抓取教程,现在尝试使用基本的api抓取器。这是我从bs4导入的代码BeautifulSoup导入请求url ='https://qships.tmr.qld.gov.au/webx/services/wxdata ....

回答 1 投票 0

Python多线程抓取,将数据写入csv文件中

我使用多处理池来提高抓取速度,并且一切正常,只是我不明白为什么python为什么每隔30行写入我的csv的标头,我知道有一个与param的链接...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.