读取多个 csv 文件非常慢/根本不读取

问题描述 投票:0回答:1

我试图根据他们的示例从“Spark-The-Definitive-Guide-master”中简单地读取 2 个 CSV 文件。 当有超过 1 个 CSV 文件时,内核永远不会完成以下操作

spark = SparkSession.builder \
    .appName("OptimizedLoad") \
    .master("local[8]") \
    .config("spark.executor.memory", "4g") \
    .config("spark.executor.cores", "4") \
    .config("spark.driver.memory", "2g") \
    .config("spark.sql.shuffle.partitions", "8") \
    .getOrCreate()

dataPath = "./Spark-The-Definitive-Guide-master/data/retail-data/smallExamp/"
staticDataFrame = spark.read.format("csv").option("header","true").load(dataPath+"*.csv")
staticDataFrame.show()

我已成功尝试单个文件。

csv apache-spark
1个回答
0
投票

也许您可以尝试使用

.option('pathGlobFilter','*.csv')
,如通用文件数据源指南中所述。

© www.soinside.com 2019 - 2024. All rights reserved.