web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何使用不变的URL刮取多个页面 - Python和BeautifulSoup

我正试图抓住这个网站:https://www.99acres.com到目前为止,我已经使用BeautifulSoup来执行代码并从网站中提取数据;但是,我的代码现在只给我第一个......

回答 4 投票 2

登录主页,在主页的链接内部报废

我会这么简单。我有一个登录页面。我登录我看到了主页。主页有两个链接。我想打开这两个链接。每个链接都有两个数据。我只想要来自两个链接的四个数据......

回答 1 投票 0

使用python将动态数据插入mysql

已编辑>>>>>我写了一些返回两个输出的代码,但出现错误。我的代码的主要问题是什么?从urllib.request导入urlopen作为uReq从bs4导入BeautifulSoup作为汤...

回答 2 投票 -1

python selenium点击按钮xpath错误

我正试图刮掉一个airbnb上市。除了点击“更多”之外,我无法找到获得完整设施列表的方法。我使用selenium来模拟点击,但它似乎没有工作....

回答 2 投票 2

美丽的汤:刮表数据

我想从下面的URL中提取表数据。具体来说,我想在第一列中提取数据。当我运行下面的代码时,第一列中的数据会重复多次。 ...

回答 2 投票 1

为什么打印Xpath而不是元素内的文本?

我试图在以下网址上搜索足球比赛的比赛统计数据:https://www.flashscore.com/match/8S0QVm38/#match-statistics;0我编写了代码,仅供Webdriver使用。 ..

回答 2 投票 1

使用URLlib解析HTML - 如何打印每个标签的1个以上?

我正在编写一个程序来解析网页以抢夺标题和标题,这样我就可以在不手动点击所有代码的情况下进行SEO咨询。代码工作,但只返回一个...

回答 1 投票 0

如何在Web源代码中选择第n个匹配项

我试图通过雅虎财经找到52周价格范围的清单。网址:https://finance.yahoo.com/quote/AAPL?p = AAPL我已经在线查看了youtube并使用了很多指导...

回答 1 投票 1

AttributeError:抓取wiki时,'NoneType'对象没有属性'find_all'

来自bs4 import BeautifulSoup导入请求导入lxml url ='https://en.wikipedia.org/wiki/Berlin_Wall/'cream = requests.get(url).content soup = BeautifulSoup(cream,'lxml')table = soup。找('...

回答 1 投票 1

Scrapy csv导出没有空行

我有以下scrapy代码:来自scrapy.spiders导入CrawlSpider,来自scrapy.linkextractors的规则导入LinkExtractor类AliSpider(CrawlSpider):name =“alibot”allowed_domains = ...

回答 1 投票 0

如何通过Python中的Selenium从相对于多个分隔符动态更改的字符串中检索子字符串

我想知道是否有可能删除部分刮掉的字符串:Wujek Drew / Uncle Drew into Uncle Drew当然,因为它是网络抓取,所以标题每次都会不同,所以我能...

回答 1 投票 1

python selenium进入搜索查询然后等待

actions = ActionChains(driver)actions.send_keys(search_query + Keys.ENTER)actions.perform()等待页面加载的代码src = driver.page_source如何实现这个?我想发送......

回答 1 投票 2

在网页上提取突出显示文本

我想知道是否有从网页上的段落中提取突出显示的文本。经过长时间的搜索。我遇到过这个模块https://python-docx.readthedocs.io/en/latest/但是......

回答 3 投票 1

无法从div部分提取数据

我想从后面的url中提取主机名和Ip,但它什么都不返回。从bs4导入请求导入BeautifulSoup url =“https://mxtoolbox.com/SuperTool.aspx?action = mx%...

回答 1 投票 0

无法根据来源的内容写日期

我已经在python中编写了一个与selenium结合使用的脚本来解析网页中的一些动态内容并相应地将它们写入csv文件。以下脚本可以无误地执行此操作,但...

回答 1 投票 1

谷歌搜索“龙球壁纸”上的python web抓取

从urllib.request导入urlopen从bs4导入BeautifulSoup导入urllib从字符串导入随机导入ascii_lowercase def makesoup(url):thepage = urlopen(url)soupdata = BeautifulSoup(...

回答 1 投票 0

使用Selenium和Python刮取文本值

对于ERP系统中的每个供应商(供应商总数= 800+),我正在收集其数据并将此信息作为pdf文件导出。我在Python中使用了Selenium,创建了一个名为Scraper的类,并且......

回答 3 投票 0

Python如果String包含在href中

这是我的python代码。 r = requests.get(“myurl”)data = r.text soup = BeautifulSoup(data,“lxml”)texttmp =“”for soup.find_all('a')中的链接:image = link.get(“href” )如果图像中的“.jpg”:...

回答 2 投票 1

如何将bs4.element.Tag转换为JSON字典?

我正在使用Beautiful Soup 4来网页抓取配方的HTML页面,而application / ld + json脚本有内容:['\ r \ n {\ r \ n“@context”:“https:// schema .org /“,\ r \ n”@type“:”食谱“,\ r \ n”名称“:...

回答 2 投票 0

使用BeautifulSoup使用Spry框架构建的Scrape表

这个页面包含我要用BeautifulSoup报废的表:Cacao的味道 - 巧克力数据库该表位于一个id为spryregion1的div内,但是它找不到...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.