如何使用pyspark在jupyter笔记本中显示我的csv数据文件

问题描述 投票:0回答:1

我正在研究一个大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约是400多万条记录(540000行和7列。)我能做什么才能显示我打印的所有数据集?

我试图使用pandas数据帧,但它确实显示错误,如附加的屏幕截图,然后我试图更改它给出的语法错误的编码类型:解析时意外的EOF。你能帮我么?

python pyspark jupyter-notebook
1个回答
0
投票

对于最后一个截图,我认为你错过了使用处理程序with在python中读取文件的方式。如果您的数据在json文件中,您可以按如下方式阅读:

with open('data_file.json', encoding='utf-8') as data_file:
    data = json.loads(data_file.read())

请注意,它是'data_file.json'而不是data_file.json。 csv示例使用相同的logis

如果它在csv文件中,那非常简单:

file = pd.read_csv('data_file.csv')

尝试删除csv读取步骤中的编码参数我不建议使用笔记本来读取如此庞大的文件,即使你正在使用pyspark。考虑使用该文件的一部分在笔记本中可视化,然后切换到另一个平台。

希望能帮助到你

© www.soinside.com 2019 - 2024. All rights reserved.