我有多个文件(CSV和XML),我想做一些过滤器。我定义了一个functoin做所有这些过滤器,我想知道如何将其称为适用于我的CSV文件? PS:我的数据框的类型是:pyspark.sql.dataframe.DataFrame 提前致谢
例如,如果您将第一个CSV文件读作df1 = spark.read.csv(..)
,将第二个CSV文件读作df2 = spark.read.csv(..)
将CSV文件中的所有多个pyspark.sql.dataframe.DataFrame
单独包装到列表中。
csvList = [df1, df2, ...]
然后,
for i in csvList:
YourFilterOperation(i)
基本上,对于来自存储在i
中的CSV文件的pyspark.sql.dataframe.DataFrame
的每个csvList
,它应该逐个迭代,进入循环并执行您编写的任何过滤操作。
由于您没有提供任何可重现的代码,我无法看到它是否适用于我的Mac。