使用pySpark将hdfs中的分区文本文件读取到数据帧中

问题描述 投票:0回答:1

我将多个文件存储在hdfs位置,如下所示

/ user / project / 202005 / part-01798

/ user / project / 202005 / part-01799

有2000个此类零件文件。每个文件的格式{'Name':'abc','Age':28,'Marks':[20,25,30]} , {'Name':...}

依此类推。我有2个问题

1) How to check whether these are multiple files or multiple partitions of the same file
2) How to read these in a data frame using pyspark
pyspark apache-spark-sql hdfs partitioning
1个回答
0
投票
  1. 由于这些文件位于一个目录中,并且它们被命名为part-xxxxx文件,因此可以放心地假设这些文件是同一数据集的多个部分文件。如果这些是分区,则应像这样保存它们/ user / project / date = 202005 / *
  2. 您可以将目录“ / user / project / 202005”指定为spark的输入,如下所示,假设这些是csv文件
df = spark.read.csv('/user/project/202005/',header=True, inferSchema=True)
© www.soinside.com 2019 - 2024. All rights reserved.