连接数据集并重命名一列

Question

我知道如何实现它，但我想（或者至少我希望）有一种更简单，更少样板的方法来做同样的事情。

场景：

Employee
+-------+---+------------+
|   NAME|AGE|COMPANY_CODE|
+-------+---+------------+
|   John| 41|           1|
|   Mary| 34|           1|
|  Chris| 32|           2|
|Phillip| 22|           2|
|   Tony| 44|           1|
+-------+---+------------+

Company
+----+---------+
|CODE|     NAME|
+----+---------+
|   1|Company-1|
|   2|Company-2|
|   3|Company-3|
+----+---------+

我的目标是通过employee.company_code和company_code连接两个表，并将employee.name显示为NAME，employee.age显示为AGE，将company.name显示为COMPANY_NAME（这是技巧部分）

// company columns
final Column companyCode = companyDataSet.col("CODE");

// employee columns
final Column employeeCompanyCode = employeeDataSet.col("COMPANY_CODE");

Dataset<Row> join = employeeDataSet.join(companyDataSet, employeeCompanyCode.equalTo(companyCode));

join = join.drop(companyCode).drop(employeeCompanyCode);

打印连接数据框，现在我们得到：

+-------+---+---------+
|   NAME|AGE|     NAME|
+-------+---+---------+
|   John| 41|Company-1|
|   Mary| 34|Company-1|
|  Chris| 32|Company-2|
|Phillip| 22|Company-2|
|   Tony| 44|Company-1|
+-------+---+---------+

我不能使用withColumnRenamed方法（join.withColumnRenamed（“NAME”，“COMPANY_NAME”），因为我有两列名为NAME，两者都将被重命名

我发现这样做的唯一方法是定义我想要显示的所有列，将所有列传递给select数据集方法，然后根据需要重命名列：

final Column companyName = companyDataSet.col("NAME");
final Column employeeName = employeeDataSet.col("NAME");
final Column employeeAge = employeeDataSet.col("AGE");

join = join.select(employeeName, employeeAge, companyName.alias("COMPANY_NAME"));

+-------+---+------------+
|   NAME|AGE|COMPANY_NAME|
+-------+---+------------+
|   John| 41|   Company-1|
|   Mary| 34|   Company-1|
|  Chris| 32|   Company-2|
|Phillip| 22|   Company-2|
|   Tony| 44|   Company-1|
+-------+---+------------+

在这种特定的情况下，定义我想要选择的所有列并不是什么大问题，因为它们只是几列，但想象在具有一列列的表中。由于一个可怜的列重命名而定义大量列太痛苦了。

知道如何避免这种情况吗？

Answer 1

你应该能够做到：

join = join.withColumnRenamed(companyDataSet.col("NAME"), "COMPANY_NAME")

这会解决你的问题吗？

Answer 2

一种方法是将它们注册为临时表并编写SQL？

employee.createOrReplaceTempView(emp)
company.createOrReplaceTempView(comp)

spark.sql("select t1.Name as Name, t1.Age as Age, t2.Name as Company_Name
        from 
        emp t1 join comp t2
        on
        t1.id = t2.id")

Answer 3

我发现了一个简单的解决方案，而不是像我认为的数据集.withColumnRenamed接受一个列作为第一个参数，但它比仅包含所有列更好，因为一个列重命名。

在加入employeeDataSet之前，只需从companyDataSet重命名列NAME：

companyDataSet = companyDataSet.withColumnRenamed("NAME", "COMPANY_NAME");

连接数据集并重命名一列

问题描述投票：-1回答：3

3个回答

最新问题

连接数据集并重命名一列

问题描述 投票：-1回答：3

3个回答

最新问题

问题描述投票：-1回答：3