screen-scraping 相关问题

屏幕抓取(也称为网络抓取或数据抓取)是一种用于从用户界面收集和解析信息的软件技术。如果您的问题是关于从网站或Web-API进行抓取,请使用[web-scraping]标记。

策略性地追踪各种模式 - python 正则表达式

我必须从PDF文档中提取信息,所有文档都具有相同的结构。我使用以下正则表达式: regex_objetivos = r"Objetivo([\s\S]*)(?=3\s*\.\s*Justi)"

回答 0 投票 0

如何在html中取消第二部分 AttributeError: 'NoneType'对象没有属性'text'。

我想从HTML中刮出 "bla "这个词,但它什么也没给我。如何得到它?bla 从bs4导入BeautifulSoup,从...

回答 1 投票 0

为什么我试图用Requests和Beautiful Soup 4搜刮的URL会返回一个TypeError?

我是按照这个教程来学习如何用Python做一个网络搜刮应用的。具体来说,我想从我经常光顾的一个购物网站上刮取搜索结果。问题是,当我插入这个 ...

回答 1 投票 0

编写网页抓取的UI

我正在尝试建立一个网站,用于网络搜刮。它的目的是搜刮 "类似购物 "的网站(如亚马逊)。我想让用户输入一个网址,然后在我的框架中打开被搜刮的网站。

回答 1 投票 -2

为什么我试图用Requests和Beautiful Soup 4搜刮的URL会返回一个TypeError?

我是按照这个教程来学习如何用Python做一个网络搜刮应用的。具体来说,我想从我经常光顾的一个购物网站上刮取搜索结果。问题是,当我插入这个 ...

回答 1 投票 0

from bs4 import BeautifulSoup ModuleNotFoundError: 没有名为'bs4'的模块[重复]

我正在做一个项目与网络刮痧,我不能理解为什么我的程序拒绝导入bs4。我已经解决了几个小时的问题,尝试了设置路径,确保车轮已经安装,是的,我...

回答 1 投票 0

如何从一个包含期权的网站获取信息?

我试图使用我所学到的东西从一个彩票网站上搜刮信息。结果是在 "选项 "选择了多个抽奖,我面临的第一个困难,我不能 "得到"... ...

回答 1 投票 0

无法用scrapy提取完整的url @href。

我想从amazon.in的链接中提取产品的url链接是 - href="Parachute-Coconut-Oil-600-FreedpB081WSB91Cref=sr_1_49?dchild=1&fpw=pantry&fst=as%3Aoff&qid=1588693187&s=...。

回答 1 投票 0

如何获得另一个网站的截图预览。

有没有一种方法可以让你得到另一个网站的页面截图呢,比如:你在输入中引入一个网址,按回车键,脚本就会给你一个你放进去的网站的截图。我管理的是...

回答 1 投票 0

Python网络搜刮。复制和输出显示问题

我的代码有一个问题,我试过了,但无法确定。它与循环的输出不显示和正确插入我的DB有关。我希望每一行数据都能被刮取 ...

回答 1 投票 0

Python。使用for循环来迭代一个类别和子类别的列表。类型错误:必须是str,而不是list。

我有一个汽车品牌和型号的示例列表,可以通过迭代和执行代码。... makes = ['福特', '奥迪'] ford_models = ['C-MAX', 'Focus'] audi_models = ['A3', 'A4'] models = [ford_models, ...

回答 1 投票 0

如何分别打印我的CLI项目名称和URL?

我正在构建一个吉他浏览的CLI,我把吉他的名字和URL放在一个数组中: def self.get_electric doc = Nokogiri::HTML(open())。我把吉他的名字和URL放在一个哈希数组中: def self.get_electric doc = Nokogiri::HTML(open("https:/reverb.comcelectric-guitars")) ...

回答 1 投票 1

用尼泊尔语(非英语)刮取网页的URL。

我正在浏览一个网站,该网站的网页上有尼泊尔语的urls,即非英文字体。我如何给任何spider提供start_urls(我正在使用scrapy来实现这个目的)? 有沒有任何一種編碼......

回答 2 投票 0

如何使用Python进行网络刮擦?

我试图通过使用Python 3,将这个网站上的一个表格进行网络刮擦,变成一个.csv文件。2015年NBA全国电视赛程表 图表的开头是这样的: 日期 球队...

回答 1 投票 0

在使用Python进行网络刮刮卡时,如何分离列和格式化日期?

我想用Python 3将这个网站上的一个图表转换成一个.csv文件。2013-14赛季NBA全国电视赛程表 图表的开头是这样的: 比赛时间 网络对阵...

回答 1 投票 0

用java编程检索亚马逊订单历史记录。

我想登录到我的亚马逊帐户,并检索购买历史在java编程。做了很多研究,遇到了屏幕抓取。这是唯一的方法,还是亚马逊提供的apis ...

回答 2 投票 12

有没有办法在VBA中选择元素集合中的某些元素?

我对VBA和数据抓取还很陌生。我想检查是否有办法在元素集合中选择某些元素。我的VBA代码如下。Sub Refresh() Dim XMLPage As ...

回答 1 投票 0

依赖的下拉选项,而Web Scraping不加载。

我正试图从以下网站中刮取数据:http:/www.equibase.comstatsView.cfm?tf=meet&tb=jockey&rbt=TB 我希望VBA代码能完成以下步骤。转到网址 点击"...

回答 1 投票 0

如何在Python中刮取这个PDF?

我想用python来刮取这个PDF的信息。我不知道从哪里开始,因为它根本没有组织。我习惯于刮取HTML。我试着把它转换为HTML,但并没有真正......

回答 1 投票 0

用scrapy刮取多个域名的最好方法是什么?

我有大约10个奇怪的网站,我希望从这些网站上搜刮。其中有几个是wordpress博客,它们遵循相同的html结构,尽管有不同的类。其他的网站要么是论坛,要么是 ...

回答 6 投票 6

© www.soinside.com 2019 - 2024. All rights reserved.