web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

使用BeautifulSoup进行Web抓取时出现“浏览器不支持”错误

我正在尝试网络抓一个网站,但我一直得到这个“浏览器不支持”错误。有谁知道如何解决这一问题?谢谢。 import bs4 import requests headers = {'User-Agent':'Mozilla / 5.0(...

回答 2 投票 1

Web Scrapy - 如何遍历标题中的标题超链接 or Tab

我有一个关于如何循环html选项卡'form'或'Table Summary'的问题。该网站:访问https://mobile.uwants.com/forumdisplay.php?fid=631我试过下面的代码,但没有运气......

回答 1 投票 0

如何使用excel vba获取HTML网页的特定属性

这是此前帖子的延续。在这篇新帖子中,我试图捕获以下列表中HTML代码中以下元素的内容:datePosted预期结果:“Aug ....

回答 2 投票 1

如何使用excel vba获取href属性

我想检索的href属性 tags of an html page, I am able to get the innerText, but I don't know how to access the href attribute, there are several tags in ...

回答 3 投票 2

适用于Chrome版本69.0.3497.81的ChromeDriver版本,同时使用selenium和Python

我已经使用旧版本的chrome构建了一个web-scraper,它运行良好,然后使用版本69.0.3497.81将chrome自动更新,现在任何网站似乎都无法识别网络...

回答 1 投票 2

Excel VBA:自动点击并从网站打开文件

感谢Qharr,我已成功在网站上执行自动搜索。(我之前的问题:Excel VBA:无法在网站上执行自动搜索)我还有另一个问题,关于下一步:我......

回答 1 投票 1

根据数组的索引显示不同的HTML元素

我正在使用Python来浏览网页,然后下载其表格数据, elements, and store them in file as JSON. Afterwards, I use PHP to process that data and display it in a ...

回答 1 投票 2

Scrapy:按照分页链接抓取数据[重复]

我正在尝试从页面中抓取数据并继续按照分页链接进行抓取。我试图抓的页面是 - >这里# - * - 编码:utf-8 - * - import scrapy class AlibabaSpider(...

回答 2 投票 0

无法使用两个线程在脚本中执行两个函数

我已经使用python和Thread创建了一个刮刀,以便更快地执行。刮刀应该用不同的字母表解析网页中可用的所有链接。 ...

回答 2 投票 0

Excel VBA:无法在网站上执行自动搜索

最近我正在学习使用excel宏在网站上搜索。我已经阅读了几个论坛帖子,我想出了下面的代码。但是,当我到达SearchBox(0)行时出现错误.Value = ...

回答 1 投票 -1

抓取0页抓取0项

我刚开始学习Python和Scrapy。我的第一个项目是在包含Web安全信息的网站上抓取信息。但是,当我使用cmd运行它时,它表示已抓取0页(0 ...

回答 1 投票 0

Scrapy:无法从页面中提取所有数据

我试图从这个页面刮掉。我写的代码从36个中删除了10个项目我无法找到问题。如果我在shell上单独运行查询,它似乎提取所有数据......

回答 2 投票 0

Python - 抓取IMDb网站时的XPath问题

我正在尝试使用Python在IMDb上拍摄电影,我可以获得有关所有重要方面的数据,但演员姓名。以下是我正在处理的示例网址:https://www.imdb.com/title / ...

回答 2 投票 0

刮板 - 如何保存和存储表情符号

我目前正在https://scrapy.org/下使用Scraper在python 3.x和ubuntu环境下,不知何故我想在论坛中获得用户评论,其中包含文本以及表情符号。想知道......

回答 2 投票 0

在通过cmd运行scraper(scrapy)时未创建新目录或文件

这是主文件这是设置文件pipelines.py文件items.py文件每当我运行刮刀时,它应该创建一个json文件。刮刀工作正常,但它不能保存......

回答 1 投票 0

转换为字符串untagged child美丽的汤

我正在尝试使用BeautifulSoup4废弃一些html文档,但我试图废弃这个div: 5

回答 1 投票 1

无法使用vba从selenium中选择下拉列表

嗨,我是VBA的selenium新手,所以我试图通过登录网页导航并将数据提取到excel文件中来自动化流程。根据我的研究,首先我打电话给...

回答 2 投票 1

使用Ruby中的Nokogiri刮取特定标题

我目前正在使用NYT Best Sellers网站练习网页抓取。我想在列表中获得#1书的标题并找到HTML元素:

回答 1 投票 2

Chrome JS Console中的XPath搜索(“$ x(...)”)输出数组(jQuery Objects?)而不是HTML文本的部分(DOM元素?)

我对使用Chrome开发工具/进行XPath搜索/这种编程一般都比较新,所以请原谅任何不正确的术语或模糊的描述。我觉得 ...

回答 1 投票 3

通过Google Play商店在R中进行网络抓取

我想从我想要的几个应用程序评论的谷歌游戏商店中删除数据。 1)名称字段2)他们得到了多少明星3)他们写的评论这是senerio的快照#Loading the ...

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.