使用pySpark将hdfs中的分区文本文件读取到数据帧中

问题描述投票：0回答：1

我将多个文件存储在hdfs位置，如下所示

/ user / project / 202005 / part-01798
/ user / project / 202005 / part-01799

有2000个此类零件文件。每个文件的格式{'Name':'abc','Age':28,'Marks':[20,25,30]} , {'Name':...}

依此类推。我有2个问题

1) How to check whether these are multiple files or multiple partitions of the same file
2) How to read these in a data frame using pyspark

pyspark apache-spark-sql hdfs partitioning

1个回答

0
投票

由于这些文件位于一个目录中，并且它们被命名为part-xxxxx文件，因此可以放心地假设这些文件是同一数据集的多个部分文件。如果这些是分区，则应像这样保存它们/ user / project / date = 202005 / *
您可以将目录“ / user / project / 202005”指定为spark的输入，如下所示，假设这些是csv文件

df = spark.read.csv('/user/project/202005/',header=True, inferSchema=True)

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.