如何在PySpark中调用python函数？

Question

我有多个文件（CSV和XML），我想做一些过滤器。我定义了一个functoin做所有这些过滤器，我想知道如何将其称为适用于我的CSV文件？ PS：我的数据框的类型是：pyspark.sql.dataframe.DataFrame 提前致谢

Answer 1

例如，如果您将第一个CSV文件读作df1 = spark.read.csv(..)，将第二个CSV文件读作df2 = spark.read.csv(..)

将CSV文件中的所有多个pyspark.sql.dataframe.DataFrame单独包装到列表中。

csvList = [df1, df2, ...]

然后，

for i in csvList:
    YourFilterOperation(i)

基本上，对于来自存储在i中的CSV文件的pyspark.sql.dataframe.DataFrame的每个csvList，它应该逐个迭代，进入循环并执行您编写的任何过滤操作。

由于您没有提供任何可重现的代码，我无法看到它是否适用于我的Mac。