我是网络爬虫的新手,需要抓紧Yahoo财务才能获取股票数据。我能够抓取他们的历史数据,但是他们的最高频率是1天间隔,并且我正在寻找更高的频率(例如30分钟到1个小时左右)。不幸的是,雅虎财经和其他金融网站(据我调查)没有免费发布超过1天的频率。我获得更高频率的解决方案在于yahoo Finance针对每只股票的图表功能,如下所示:
如您所见,当您沿x轴移动时,十字准线沿数据线移动,并且左上角的图例更改了相关信息(打开,高,低,关闭,成交量,涨跌百分比)。因此,理想情况下,每天我都会查看图表中过去24小时的公司数据,然后以某种方式在从左向右移动光标时读取左侧的图例。
[开始之前,我想知道是否(a)某人已经这样做或(b)一些有用的资源来研究,以简化此过程。
谢谢!
yfinance具有下载功能,该功能使用线程进行快速下载。如评论中所述,您可以获得100万个滴答数据,但只能获得7天的时间。您会在下面的代码中注意到,如果输入的值大于7d,则会引发错误。
1 Failed download:
- SPY: 1m data not available for startTime=1589678598 and endTime=1590369798. Only 7 days worth of 1m granularity data are allowed to be fetched per request.
Empty DataFrame
9:30A-4PM是东部海岸的市场开放时间。但是您会注意到,一些股票交易在交易后(例如SPY)交易。您可以在下面设置“ prepost”属性,以说明市场前/后市场价格。希望这可以帮助。
import yfinance as yf
data = yf.download( # or pdr.get_data_yahoo(...
# tickers list or string as well
tickers = "SPY",
# use "period" instead of start/end
# valid periods: 1d,5d,1mo,3mo,6mo,1y,2y,5y,10y,ytd,max
# (optional, default is '1mo')
period = "7d",
# fetch data by interval (including intraday if period < 60 days)
# valid intervals: 1m,2m,5m,15m,30m,60m,90m,1h,1d,5d,1wk,1mo,3mo
# (optional, default is '1d')
interval = "1m",
# group by ticker (to access via data['SPY'])
# (optional, default is 'column')
group_by = 'ticker',
# adjust all OHLC automatically
# (optional, default is False)
auto_adjust = True,
# download pre/post regular market hours data
# (optional, default is False)
prepost = False,
# use threads for mass downloading? (True/False/Integer)
# (optional, default is True)
threads = True,
# proxy URL scheme use use when downloading?
# (optional, default is None)
proxy = None
)
print(data)
结果:
[*********************100%***********************] 1 of 1 completed
Open High Low Close Volume
Datetime
2020-05-14 09:30:00-04:00 278.950012 279.220001 278.769989 279.160004 5701148
2020-05-14 09:31:00-04:00 279.149994 279.670013 279.149994 279.640015 602618
2020-05-14 09:32:00-04:00 279.649994 279.709991 278.980011 278.980011 445239
2020-05-14 09:33:00-04:00 278.959991 279.059998 278.890015 278.970001 110324
2020-05-14 09:34:00-04:00 278.649994 278.869995 278.609985 278.780487 968209
....
....