我正在研究一个大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约是400多万条记录(540000行和7列。)我能做什么才能显示我打印的所有数据集?
我试图使用pandas数据帧,但它确实显示错误,如附加的屏幕截图,然后我试图更改它给出的语法错误的编码类型:解析时意外的EOF。你能帮我么?
对于最后一个截图,我认为你错过了使用处理程序with
在python中读取文件的方式。如果您的数据在json文件中,您可以按如下方式阅读:
with open('data_file.json', encoding='utf-8') as data_file:
data = json.loads(data_file.read())
请注意,它是'data_file.json'
而不是data_file.json
。 csv示例使用相同的logis
如果它在csv文件中,那非常简单:
file = pd.read_csv('data_file.csv')
尝试删除csv读取步骤中的编码参数我不建议使用笔记本来读取如此庞大的文件,即使你正在使用pyspark。考虑使用该文件的一部分在笔记本中可视化,然后切换到另一个平台。
希望能帮助到你