如何使用pyspark在jupyter笔记本中显示我的csv数据文件

Question

我正在研究一个大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约是400多万条记录（540000行和7列。）我能做什么才能显示我打印的所有数据集？

我试图使用pandas数据帧，但它确实显示错误，如附加的屏幕截图，然后我试图更改它给出的语法错误的编码类型：解析时意外的EOF。你能帮我么？

Answer 1

对于最后一个截图，我认为你错过了使用处理程序with在python中读取文件的方式。如果您的数据在json文件中，您可以按如下方式阅读：

with open('data_file.json', encoding='utf-8') as data_file:
    data = json.loads(data_file.read())

请注意，它是'data_file.json'而不是data_file.json。 csv示例使用相同的logis

如果它在csv文件中，那非常简单：

file = pd.read_csv('data_file.csv')

尝试删除csv读取步骤中的编码参数我不建议使用笔记本来读取如此庞大的文件，即使你正在使用pyspark。考虑使用该文件的一部分在笔记本中可视化，然后切换到另一个平台。

希望能帮助到你