读取多个 csv 文件非常慢/根本不读取

Question

我试图根据他们的示例从“Spark-The-Definitive-Guide-master”中简单地读取 2 个 CSV 文件。当有超过 1 个 CSV 文件时，内核永远不会完成以下操作

spark = SparkSession.builder \
    .appName("OptimizedLoad") \
    .master("local[8]") \
    .config("spark.executor.memory", "4g") \
    .config("spark.executor.cores", "4") \
    .config("spark.driver.memory", "2g") \
    .config("spark.sql.shuffle.partitions", "8") \
    .getOrCreate()

dataPath = "./Spark-The-Definitive-Guide-master/data/retail-data/smallExamp/"
staticDataFrame = spark.read.format("csv").option("header","true").load(dataPath+"*.csv")
staticDataFrame.show()

我已成功尝试单个文件。

Answer 1

也许您可以尝试使用

.option('pathGlobFilter','*.csv')

，如通用文件数据源指南中所述。

读取多个 csv 文件非常慢/根本不读取

问题描述投票：0回答：1

1个回答

最新问题

读取多个 csv 文件非常慢/根本不读取

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1