如何使用statsmodels get_rdataset获取数据集?

问题描述 投票:0回答:1

Python 的

statsmodels
库具有
get_rdataset()
方法,可以获取各种数据集。可以获取的数据集列表在哪里?如何使用它加载数据集?

文档没有提及哪些数据集可用。它只是说

dataname: The name of the dataset you want to download
是必需的参数,但没有提及哪些数据名可以在任何地方使用。

python statistics statsmodels
1个回答
2
投票

包含所有数据集元信息的 CSV 可以在 https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/datasets.csv 找到,它在

index_url
函数中定义为变量
_get_dataset_meta()
statsmodels.datasets.utils
模块。

当加载此数据集时,例如使用 pandas,它的前 5 行如下所示。

import pandas as pd
datasets = pd.read_csv("https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/datasets.csv")
datasets.head()

文档所示

get_rdataset()
的第一个参数是数据名称(在元数据集中记录为Item),第二个参数是数据集所属的包名称。例如,以下内容检索 CSV 中的第一个数据集(因为数据名称是 AER 包中的事务)。

import statsmodels.api as sm
df = sm.datasets.get_rdataset('Affairs', 'AER', cache=True).data
df.head()

© www.soinside.com 2019 - 2024. All rights reserved.