web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Beautifulsoup:循环遍历课程并提取信息

从bs4导入请求导入BeautifulSoup res = requests.get('https://www.amcham.com.au/web/Events/Web/Events/Upcoming_Events.aspx?hkey=6f098583-ca3d-4a6f-87de-cd4f13d50b11')汤= BeautifulSoup(...

回答 3 投票 2

R编程Web Scraping

我尝试使用R编程的R vest包从下面的链接中抓取网页。我刮过的链接是http://dk.farnell.com/c/office-computer-networking-products/prl/results我的代码是:...

回答 1 投票 1

为什么点击不能在selenium中的某些按钮上工作?

我已经越来越正确地使用了硒中的点击过程和python。但是,我不知道为什么它现在在我的代码中无法正常工作:number = driver.find_element_by_xpath(“”“// * [@ id =”ui-id-4“]”“”)...

回答 1 投票 0

如何在selenium中获取最新的标签响应?

所以这是我的机器人:https://www.pandorabots.com/pandora/talk?botid = b3a17e933e345861而我正在尝试获取当前的人类vs thanos响应,所以我尝试了:从selenium import webdriver导入时间...

回答 2 投票 0

Scrapy + Splash为任何网站返回403

出于某种原因,我在使用Splash时有任何请求403。我做错了什么?关注https://github.com/scrapy-plugins/scrapy-splash我设置了所有设置:SPLASH_URL ='http:// localhost:...

回答 1 投票 0

AttributeError:'NoneType'对象在写入文件时没有属性'encode'?

我想抓取新内容并将其写入文件但是它给'NoneType'对象没有属性'encode'#!/ usr / bin / python# - * - coding:utf-8 - * - import urllib2 as urllib来自bs4 import ...

回答 2 投票 0

将Highcharts数据刮到CSV文件

我想使用Python从CoinMarketCap网站上获取特定硬币的历史数据。我想要尽可能精细的数据。我认为数据来自以下字符串:我想使用...

回答 1 投票 0

Ruby:Net :: HTTP和重定向

我正在学习http://ruby.bastardsbook.com/chapters/web-crawling/上的教程,并想对一下处理重定向一点澄清,因为作者使用的国防部网站......

回答 1 投票 1

连接到产品页面URL Jsoup

我有一个网站,我需要从中解析数据。我需要通过关键字结果进行一些搜索。但是,并非所有字段都在产品预览中可见。看来这些领域(产品......

回答 1 投票 2

刮网站徽标

我有网站,我想刮他们的标志。问题:我有一个外部类,我在其中保存有关徽标的所有数据 - 网址,链接,一切正常:class PatternUrl:def ...

回答 2 投票 0

Python:BeautifulSoup从div类中提取所有h1文本

from requests import from bs4 import BeautifulSoup res = get('https://www.ceda.com.au/Events/Upcoming-events')soup = BeautifulSoup(res.text,“lxml”)event_location ='\ n' .join([''。join(item ....

回答 2 投票 3

Python:BeautifulSoup从div类中提取所有标题文本

从bs4导入请求导入BeautifulSoup res = requests.get('http://aicd.companydirectors.com.au/events/events-calendar')soup = BeautifulSoup(res.text,“lxml”)event_containers = soup.find_all( ” ...

回答 2 投票 1

抓取YouTube播放列表视频链接

我想下载这个Youtube频道的所有视频。所以我尝试用BeautifulSoup编写一个脚本来抓取视频的所有链接。我做了一些检查,发现“tr class = ...

回答 3 投票 0

使用BeautifulSoup提取html div类

我想从下面的HTML获得'8.0': ==$0 "8.0" /10 ...

回答 3 投票 2

无法启动有问题的链接上的点击

我已经在python中编写了一个与selenium结合使用的脚本,以启动对网页中某个链接的点击。我唯一的目的是点击该链接。我尝试了几种不同的方法,但我不能......

回答 1 投票 2

需要帮助尝试将len(item)添加为索引。

我正在试图抓取一些数据,我认为我找到了解决方案,但我正在努力为它编写代码。 #这将返回一个根据页面描述=响应变化的列表....

回答 3 投票 -2

Python请求,如何登录网站

我试图抓住这个网站,但它需要登录。我正在努力通过在python中使用请求库成功登录。通过html中的表单查看,...

回答 1 投票 1

Scraper抛出无效的url错误

我在python中创建了一个scraper来从网页上获取不同的批号。但是,当我运行我的刮刀时,我在控制台中看到“请求的网址无效”。我试图得到回复网址...

回答 2 投票 1

Python谷歌搜索并立即得到答案

我正在尝试用python制作语音助手。当你在google上查找时,我需要知道如何找到以粗体显示的问题的直接答案。例如http://www.google.co ....

回答 1 投票 -1

相同的代码给出不同的输出取决于它是否具有列表推导或生成器

我正在努力清理这个网站并获得每一个字。但使用生成器比使用列表给我更多的单词。而且,这些词是不一致的。有时候我有更多的单词,有时候没有,...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.