web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何让爬虫用bs4抓取网站

我写了一个脚本来刮取引号来刮除引号和作者姓名。在这个项目中,我使用请求来获取页面代码,使用bs4来解析HTML。我使用while循环遍历分页链接到...

回答 1 投票 0

如何在Scrapy中提取所有请求标头?

我无法在scrapy中获取请求标头中的所有cookie通行证?如何获取请求标头的所有cookie?

回答 1 投票 -1

Excel Vba循环IE - 没有运行

我正在运行下面的代码,但它似乎没有执行循环。它仅适用于单个单元,但不适用于定义范围内的其他单元。新增PDF打印...

回答 1 投票 -1

通过美丽的汤我刮了推特数据。我能够获取数据,但无法保存在csv文件中

我在Twitter上搜索用户名,推文,回复,转推但无法保存在CSV文件中。这是代码:来自urllib.request从bs4导入urlopen导入BeautifulSoup文件=“5_twitterBBC.csv”...

回答 2 投票 1

从python中的网站获取渲染的javascript行

我正在使用python 3.6.6。我正在尝试从pycharm网站(https://www.jetbrains.com/pycharm/download/#section=windows)获取当前版本的pycharm。版本号是......

回答 1 投票 0

从具有相同类名的多个表格单元格中读取文本

我需要从网站上抓取具体信息。它列出了不同的人,html对于1个人来说是这样的:

回答 1 投票 0

Selenium python:无法向下滚动覆盖窗口

在Quora上,我想滚动到窗口的底部,我点击查看upvoters按钮,以获得所有的upvoters名称,滚动标准浏览器窗口的代码...

回答 1 投票 0

刮邋Sl节点

我正在抓一个包含相同数据的多个元素的“草率”节点。下面的代码从列出记录相册的页面中删除city-dates。我只想要第一个城市日期实例...

回答 1 投票 0

使用python刮擦多个页面

我正试图用一个美丽的汤刮多页网站。代码部分工作。它只返回最后一页而不是所有页面。我该如何解决这个问题? #import libraries ...

回答 2 投票 0

python web scraping - 与Chrome Inspect结果不匹配的网址

我正在尝试从以下链接中检索一些数据,但是当我更改URL时,我的请求会导致不同的结果,通过单击底部的下一页按钮检索URL ...

回答 2 投票 1

Python Web应用程序列表出现故障

我需要一些帮助,我正在为我的课程课程编写代码,目标如下:找到位置18的链接(名字是1)。请关注该链接。重复此过程7次。 ...

回答 3 投票 2

如何从不使用POST的网站上抓取信息

我需要从使用HTML选择过滤其内容的网站获取一些信息。但是,我这样做有困难,因为当从选择中更改值时,网站会...

回答 1 投票 1

Scrapy IndentationError:预期缩进块

相信你做得很好。我需要你的帮助,我得到了这个错误,但我不知道原因:文件“C:\ Users \ Luis \ Amazon \ mercado \ spiders \ spider.py”,第14行产生scrapy.Request(“https: //万维网....

回答 1 投票 0

Selenium - 响应数据不包含某些元素

我正试图抓取这个页面https://www.tribeofdumo.com/product-page/gbemi-dress-purple,特别是我试图通过访问元素来获取下拉菜单中的大小列表

回答 1 投票 0

来自阿里巴巴的废料类别及其网址分为两栏

嗨,我是scrapy的新手,我正在尝试从alibaba的Product By categories页面中删除类别的类别和URL。我正在尝试抓取它并将其放在CSV文件中。这是我的观点......

回答 4 投票 0

如何网上刮MLB击球顺序优秀?

我正在使用pandas抓取棒球阵容并将python代码导入excel。我在寻找:从名称中删除引号从每个团队的开始和结束中删除括号拆分...

回答 1 投票 1

如何使用不变的URL刮取多个页面 - Python和BeautifulSoup

我正试图抓住这个网站:https://www.99acres.com到目前为止,我已经使用BeautifulSoup来执行代码并从网站中提取数据;但是,我的代码现在只给我第一个......

回答 4 投票 2

登录主页,在主页的链接内部报废

我会这么简单。我有一个登录页面。我登录我看到了主页。主页有两个链接。我想打开这两个链接。每个链接都有两个数据。我只想要来自两个链接的四个数据......

回答 1 投票 0

使用python将动态数据插入mysql

已编辑>>>>>我写了一些返回两个输出的代码,但出现错误。我的代码的主要问题是什么?从urllib.request导入urlopen作为uReq从bs4导入BeautifulSoup作为汤...

回答 2 投票 -1

python selenium点击按钮xpath错误

我正试图刮掉一个airbnb上市。除了点击“更多”之外,我无法找到获得完整设施列表的方法。我使用selenium来模拟点击,但它似乎没有工作....

回答 2 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.