使用pandas导入数据集

问题描述 投票:1回答:2

我从github(json)导入了一个数据集,这是一个包含许多子文件夹的文件夹,在子文件夹下有多个文件文件但现在我已将数据集下载到我的本地驱动器而我没有知道如何从本地驱动器导入数据集文件夹。我确实知道使用pandas导入csv文件,但因为我的数据集是我上面提到的文件夹。有人可以告诉我如何从我的本地驱动器导入它而不影响以下代码。当然我正在使用python。请检查显示从github导入的数据集的代码。 ''20_newsgroup'是我本地驱动器中文件夹的名称。

# Import Dataset
df = pd.read_json('https://raw.githubusercontent.com/selva86/datasets/master/newsgroups.json')
df = df.loc[df.target_names.isin(['soc.religion.christian', 'rec.sport.hockey', 'talk.politics.mideast', 'rec.motorcycles']) , :]
print(df.shape)  #> (2361, 3)
df.head()

# Convert to list
data = df.content.values.tolist()
data_words = list(sent_to_words(data))
print(data_words[:1])
python python-3.x pandas
2个回答
0
投票
df = pd.read_json('newsgroups.json')

应该足够了。 (或者pd.read_json('some/directory/newsgroups.json'),如果它不在当前目录中。)


0
投票

在从目录上传多个文件方面,我会看到这是否能回答你的问题:https://stackoverflow.com/a/30540662/9524722

© www.soinside.com 2019 - 2024. All rights reserved.