Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。
我写了一个脚本来刮取引号来刮除引号和作者姓名。在这个项目中,我使用请求来获取页面代码,使用bs4来解析HTML。我使用while循环遍历分页链接到...
我正在运行下面的代码,但它似乎没有执行循环。它仅适用于单个单元,但不适用于定义范围内的其他单元。新增PDF打印...
通过美丽的汤我刮了推特数据。我能够获取数据,但无法保存在csv文件中
我在Twitter上搜索用户名,推文,回复,转推但无法保存在CSV文件中。这是代码:来自urllib.request从bs4导入urlopen导入BeautifulSoup文件=“5_twitterBBC.csv”...
我正在使用python 3.6.6。我正在尝试从pycharm网站(https://www.jetbrains.com/pycharm/download/#section=windows)获取当前版本的pycharm。版本号是......
我需要从网站上抓取具体信息。它列出了不同的人,html对于1个人来说是这样的:
在Quora上,我想滚动到窗口的底部,我点击查看upvoters按钮,以获得所有的upvoters名称,滚动标准浏览器窗口的代码...
我正在抓一个包含相同数据的多个元素的“草率”节点。下面的代码从列出记录相册的页面中删除city-dates。我只想要第一个城市日期实例...
我正试图用一个美丽的汤刮多页网站。代码部分工作。它只返回最后一页而不是所有页面。我该如何解决这个问题? #import libraries ...
python web scraping - 与Chrome Inspect结果不匹配的网址
我正在尝试从以下链接中检索一些数据,但是当我更改URL时,我的请求会导致不同的结果,通过单击底部的下一页按钮检索URL ...
我需要一些帮助,我正在为我的课程课程编写代码,目标如下:找到位置18的链接(名字是1)。请关注该链接。重复此过程7次。 ...
我需要从使用HTML选择过滤其内容的网站获取一些信息。但是,我这样做有困难,因为当从选择中更改值时,网站会...
相信你做得很好。我需要你的帮助,我得到了这个错误,但我不知道原因:文件“C:\ Users \ Luis \ Amazon \ mercado \ spiders \ spider.py”,第14行产生scrapy.Request(“https: //万维网....
我正试图抓取这个页面https://www.tribeofdumo.com/product-page/gbemi-dress-purple,特别是我试图通过访问元素来获取下拉菜单中的大小列表
嗨,我是scrapy的新手,我正在尝试从alibaba的Product By categories页面中删除类别的类别和URL。我正在尝试抓取它并将其放在CSV文件中。这是我的观点......
我正在使用pandas抓取棒球阵容并将python代码导入excel。我在寻找:从名称中删除引号从每个团队的开始和结束中删除括号拆分...
如何使用不变的URL刮取多个页面 - Python和BeautifulSoup
我正试图抓住这个网站:https://www.99acres.com到目前为止,我已经使用BeautifulSoup来执行代码并从网站中提取数据;但是,我的代码现在只给我第一个......
我会这么简单。我有一个登录页面。我登录我看到了主页。主页有两个链接。我想打开这两个链接。每个链接都有两个数据。我只想要来自两个链接的四个数据......
已编辑>>>>>我写了一些返回两个输出的代码,但出现错误。我的代码的主要问题是什么?从urllib.request导入urlopen作为uReq从bs4导入BeautifulSoup作为汤...
我正试图刮掉一个airbnb上市。除了点击“更多”之外,我无法找到获得完整设施列表的方法。我使用selenium来模拟点击,但它似乎没有工作....