*.csv 用于读取多个文件，在使用 pyspark 时对我不起作用

Question

我在本地运行 Spark 时遇到 *.csv 读取多个 csv 文件的问题。执行不会停止

staticDataFrame = spark.read.format("csv")\
.option("header", "true")\
.option("inferSchema", "true")\
.load("./data/retail-data/by-day/*.csv")
staticDataFrame.createOrReplaceTempView("retail_data")
staticSchema = staticDataFrame.schema

我尝试在 colab 上测试相同的脚本，它有效。不知道是安装问题还是windows问题。我也尝试过将文件数量减少到一个文件，但也没有成功。

Answer 1

您忘记添加

spark.stop()

。

试试这个：

staticDataFrame = spark.read.format("csv")\
.option("header", "true")\
.option("inferSchema", "true")\
.load("./data/retail-data/by-day/*.csv")
staticDataFrame.createOrReplaceTempView("retail_data")
staticSchema = staticDataFrame.schema
spark.stop()

*.csv 用于读取多个文件，在使用 pyspark 时对我不起作用

问题描述投票：0回答：1

1个回答

最新问题

*.csv 用于读取多个文件，在使用 pyspark 时对我不起作用

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1