web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。


在scrapyd安装后找不到Scrapyd-deploy命令

我创建了几个我打算与scrapyd同时运行的网络蜘蛛。我首先使用以下命令在Ubuntu 14.04中成功安装了scrapyd:pip install scrapyd,当我运行时......

回答 2 投票 7

如何使用scrapy提取表内的项目

我想提取下面链接中表中列出的所有函数:python函数列表我已经尝试使用chrome开发人员控制台来获取要在文件中使用的确切xpath ...

回答 2 投票 0

如何使用Selenium和Python下载图像

我正试图从网站下载一些图像(比如前10个)。问题是我不知道html是如何工作的。到目前为止我做了什么:来自selenium import webdriver import time driver = ...

回答 1 投票 0

雅虎财经下载数据

我正在尝试刮取finance.yahoo.com并下载数据文件。具体来说,这个网址:https://finance.yahoo.com/quote/AAPL/history?p = AAPL我想在这里完成两个目标:1)我......

回答 2 投票 -4

我的if语句在bs4标签元素中查找失败有什么理由吗?

我试图找到并打印包含我感兴趣的月份的所有h3标签。为此,我试图制作一个我的bs4对象(头部)的for循环,并在其中的if语句指定打印...

回答 2 投票 -1

阅读Web内容会在禁用时返回JS

我编写了以下代码来读取网页内容:string url =“https://hackerone.com/directory?asset_type=URL&order_direction=DESC&order_field=started_accepting_at”; HttpClient ......

回答 1 投票 -1

如何使用Scrapy获取stat(item_scraped_count)?

我想获取已删除项目的总计数,但我总是从scrapy.stats导入stats类错误MySpider(Spider):name =“myspider”start_urls = [“http://example.com”] ...

回答 1 投票 0

我如何通过Selenium获得股票代码?

我想从这个页面抓住股票代码。这是我的代码:从selenium import webdriver import pandas as pd url ='https://stock360.hkej.com/StockScreener/profession/tab/profile'...

回答 1 投票 0

在Scrapy类中更正来自多个解析def的输出

我从一个页面提取数据,然后从此页面迭代URL并从另一个页面获取另一个信息。但输出不正确 - 请参见截图。来自第二个'def'的物品落入......

回答 1 投票 0

使用动态滚动解析网页的所有链接

在滚动到底部之后我试图将所有链接提取到页面末尾,但是在运行我的代码之后,我只获得了一些链接。我尝试使用BeautifulSoup下面的代码来刮掉所有...

回答 1 投票 -2
推荐问题