如何在Spark窗口函数中使用降序的orderby()?

问题描述 投票:16回答:2

我需要一个窗口函数,它按一些键(=列名称)进行分区,按另一个列名称进行排序,并返回前x行的行。

这适用于升序:

def getTopX(df: DataFrame, top_x: String, top_key: String, top_value:String): DataFrame ={
    val top_keys: List[String] = top_key.split(", ").map(_.trim).toList
    val w = Window.partitionBy(top_keys(1),top_keys.drop(1):_*)
       .orderBy(top_value)
    val rankCondition = "rn < "+top_x.toString
    val dfTop = df.withColumn("rn",row_number().over(w))
      .where(rankCondition).drop("rn")
  return dfTop
}

但是当我尝试在第4行将其更改为orderBy(desc(top_value))orderBy(top_value.desc)时,我收到语法错误。这里的语法是什么?

scala apache-spark apache-spark-sql spark-dataframe
2个回答
33
投票

orderBy有两个版本,一个用于字符串,另一个用于Column对象(API)。您的代码使用的是第一个版本,该版本不允许更改排序顺序。您需要切换到列版本,然后调用desc方法,例如myCol.desc

现在,我们进入API设计领域。传递Column参数的优点是你有更多的灵活性,例如,你可以使用表达式等。如果你想维护一个接受字符串而不是Column的API,你需要将字符串转换为柱。有很多方法可以做到这一点,最简单的方法是使用org.apache.spark.sql.functions.col(myColName)

总而言之,我们得到了

.orderBy(org.apache.spark.sql.functions.col(top_value).desc)

1
投票

例如,如果我们需要在Window函数中按降序排列名为Date的列,请在列名前使用$符号,这样我们就可以使用ascdesc语法。

Window.orderBy($"Date".desc)

在用双引号指定列名后,给出.desc,它将按降序排序。

© www.soinside.com 2019 - 2024. All rights reserved.