*.csv 用于读取多个文件,在使用 pyspark 时对我不起作用

问题描述 投票:0回答:1

我在本地运行 Spark 时遇到 *.csv 读取多个 csv 文件的问题。执行不会停止

staticDataFrame = spark.read.format("csv")\
.option("header", "true")\
.option("inferSchema", "true")\
.load("./data/retail-data/by-day/*.csv")
staticDataFrame.createOrReplaceTempView("retail_data")
staticSchema = staticDataFrame.schema

我尝试在 colab 上测试相同的脚本,它有效。不知道是安装问题还是windows问题。 我也尝试过将文件数量减少到一个文件,但也没有成功。

python apache-spark hadoop pyspark apache-spark-sql
1个回答
0
投票

您忘记添加

spark.stop()

试试这个:

staticDataFrame = spark.read.format("csv")\
.option("header", "true")\
.option("inferSchema", "true")\
.load("./data/retail-data/by-day/*.csv")
staticDataFrame.createOrReplaceTempView("retail_data")
staticSchema = staticDataFrame.schema
spark.stop()
© www.soinside.com 2019 - 2024. All rights reserved.