web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何修复 python 中的“TypeError: 'NoneType' object is not callable”

当我尝试运行这个简单的 python 网页抓取程序(如下所示)时,我收到错误“TypeError:‘NoneType’对象不可调用”。我该如何解决这个问题? 从 bs4 导入美丽...

回答 1 投票 0

Scrapy + Splash:连接被拒绝

我正在学习如何使用 scrapy +splash。我已经在虚拟环境中创建了一个项目,现在正在执行本教程:https://github.com/scrapy-plugins/scrapy-splash。 我已经跑了...

回答 3 投票 0

抓取具有动态内容的网页 - Cheerio

我正在尝试使用node js和cheerio抓取这个html,以从span标签中获取72。但是,当我放置选择器时,它不会返回任何内容(空字符串)。 在这种情况下,我想要 72 位于...

回答 1 投票 0

Python Web 抓取 [D:websockets.client] > GET %s HTTP/1.1 [D:websockets.client] > %s: %s 未显示所有结果

我正在尝试使用Python 3.10进行网页抓取,并且库请求-HTML 0.10.0。 我附上代码: 从 requests_html 导入 HTMLSession url = 'https://bodysolid-europe.com/collections/all...

回答 1 投票 0

Kotlin 多平台的 HTML 和 XML 解析库,支持 iOS,类似于 Java 的 Jsoup [已关闭]

我目前正在开发一个 Kotlin 多平台项目,需要一个跨多个平台(包括 Android 和 iOS)解析 HTML 和 XML 的解决方案。在 Java 中,我之前使用 Jsoup 来...

回答 1 投票 0

Puppeteer 等待键盘.type 完成长文本输入

我正在使用 puppeteer 来抓取网站。 我只对以下代码有简单的问题: 等待页面.键盘.类型(数据) 等待页面.click(buttonSelector) 第一行类型真的很长...

回答 2 投票 0

Selenium ChromeDriver 要求在启动时设置默认搜索引擎

当selenium打开chromedriver时,chromedriver会要求选择默认搜索引擎,并且不会让我访问我需要的网站,即使我每次运行时都选择一个搜索引擎,它也会要求...

回答 1 投票 0

登录网络抓取

我正在尝试从 www.roblox.com 上抓取一个需要登录的页面。我已经使用 .ROBLOSECURITY cookie 完成了此操作,但是,该 cookie 每隔几天就会更改一次。我想改为...

回答 2 投票 0

selenium 中的嵌套元素...我需要获取所有这些元素吗?

我正在使用硒进行一些抓取和自动化。我的问题正是我在标题上提出的。假设我有类似的东西: 我正在使用硒进行一些抓取和自动化。我的问题正是我在标题上提出的。假设我有类似的东西: <div id = "dsopdoaspdk"> <div id = "owpowqkeqwop"> <div id = "wewqopewqkeop"> <div class = "kdmkdmqwopeop"> <span class = "wopqqwope"> <a id = "dlopkeop"> 我只想获得用于单击链接的类。在 XPATH 上,我必须将所有 div 嵌套起来,或者我可以得到类似只获取最外层 div(“dsopdoaspdk”) 和 的内容吗? 我正在尝试减少代码量,而不是放置所有这些长 div 类名。 您不需要递归搜索所有 div。您可以使用 find_all 中的 BeautifulSoup 方法来查找其类中的所有链接: import requests from bs4 import BeautifulSoup response = requests.get('https://www.w3schools.com/') soup = BeautifulSoup(response.content, 'html.parser') for elem in soup.find_all('a', href=True): print("Found the URL:", elem['href']) print("The class of current url:", elem.get_attribute_list('class')[0])

回答 1 投票 0

无法使用请求模块根据网页中的许可证号码生成包含电话号码的 JSON 响应

我创建了一个脚本,使用 Python 和 requests 模块根据此网页的许可证号获取电话号码。该脚本应该生成包含 ph...

回答 1 投票 0

selenium 的驱动程序在 python 中获取错误页面

我正在努力为足球锦标赛争取一定的赔率。为此,我编写了一段代码,它首先生成我想要的确切链接,然后加载相应的页面。问题是,...

回答 1 投票 0


使用 rvest 抓取部分受登录保护的网站

我想从网页中删除一些数据,但该页面部分受用户名/密码保护。 我想废弃仅在登录后可用的数据。我找到了如何导航...

回答 1 投票 0

使用加载更多按钮Python

我想从网站上抓取产品链接(675 个产品)。第一页只有 24 个产品,带有“显示下一个 23”按钮。我尝试了两种方法来加载更多产品,这样我就可以得到......

回答 2 投票 0

我如何编写一个代码,当输入是您的 TikTok 关注者列表时,列出所有拥有超过 ex 的人的列表。 10 000 名关注者?

我如何编写一个代码,当输入是你的 TikTok 关注者列表时,列出所有超过前的列表。 1000 名粉丝? 例如,就像我放入的所有关注者用户的 .txt 文件...

回答 2 投票 0

提取带分页的 html 表格。更改页面时 URL 不会更改

我想从以下链接中提取附件中的表格:https://www.rfi.it/en/stations.html。 但我可以提取第1页的数据。我需要提取所有页面的数据。 你们能帮我吗? T...

回答 1 投票 0

如何使用Python抓取所有评论产品

现在我正在这个网站上做刮评产品 https://www.lazada.com.my/products/xiaomi-mi-a1-4gb-ram-32gb-rom-i253761547-s336359472.html?spm=a2o4k.searchlistcategory.list.64.71546883QBZ...

回答 3 投票 0

如何使用 Selenium 在页面之间导航?

我正在尝试通过汽车列表抓取该网站 - cargurus.com。具体来说,我正在尝试从正在销售的法拉利中获取详细信息。我已经能够让它工作了,至少是第一页。哈...

回答 1 投票 0

剧作家 - 抓取 eBay 交易

来自 playwright.sync_api 导入 Playwright、sync_playwright 以sync_playwright()作为剧作家: chromium = 剧作家.chromium 浏览器= chromium.launch() 上下文 = browser.new_conte...

回答 1 投票 0

Node.js 库,仅加载 DOM 和脚本,但可以处理异步

我正在尝试加载一个页面来抓取,仅在加载多个递归异步脚本后才加载我需要的数据。但由于页面和项目的数量,无法使用 Puppeteer 或 Seleniu 之类的东西......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.