在Pandas UDF PySpark中传递多列

Question

我想计算PySpark DataFrame的两列之间的Jaro Winkler距离。 Jaro Winkler距离可通过所有节点上的pyjarowinkler软件包获得。

pyjarowinkler的工作方式如下：

from pyjarowinkler import distance
distance.get_jaro_distance("A", "A", winkler=True, scaling=0.1)

输出：

1.0

我正在尝试编写一个熊猫UDF以将两列作为Series传递，并使用lambda函数计算距离。这是我的操作方式：

@pandas_udf("float", PandasUDFType.SCALAR)
def get_distance(col1, col2):
    import pandas as pd
    distance_df  = pd.DataFrame({'column_A': col1, 'column_B': col2})
    distance_df['distance'] = distance_df.apply(lambda x: distance.get_jaro_distance(str(distance_df['column_A']), str(distance_df['column_B']), winkler = True, scaling = 0.1))
    return distance_df['distance']

temp = temp.withColumn('jaro_distance', get_distance(temp.x, temp.x))

我应该能够在上述函数中传递任何两个字符串列。我得到以下输出：

+---+---+---+-------------+
|  x|  y|  z|jaro_distance|
+---+---+---+-------------+
|  A|  1|  2|         null|
|  B|  3|  4|         null|
|  C|  5|  6|         null|
|  D|  7|  8|         null|
+---+---+---+-------------+

预期输出：

+---+---+---+-------------+
|  x|  y|  z|jaro_distance|
+---+---+---+-------------+
|  A|  1|  2|          1.0|
|  B|  3|  4|          1.0|
|  C|  5|  6|          1.0|
|  D|  7|  8|          1.0|
+---+---+---+-------------+

我怀疑这可能是因为str(distance_df['column_A'])不正确。它包含所有行值的串联字符串。

虽然此代码对我有用：

@pandas_udf("float", PandasUDFType.SCALAR)
def get_distance(col):
    return col.apply(lambda x: distance.get_jaro_distance(x, "A", winkler = True, scaling = 0.1))

temp = temp.withColumn('jaro_distance', get_distance(temp.x))

输出：

+---+---+---+-------------+
|  x|  y|  z|jaro_distance|
+---+---+---+-------------+
|  A|  1|  2|          1.0|
|  B|  3|  4|          0.0|
|  C|  5|  6|          0.0|
|  D|  7|  8|          0.0|
+---+---+---+-------------+

使用Pandas UDF可以做到这一点吗？我正在处理数百万条记录，因此UDF会很昂贵，但如果可以的话仍然可以接受。谢谢。

Answer 1

错误是由于您的函数在df.apply方法中引起的，请将其调整为以下值即可解决：

@pandas_udf("float", PandasUDFType.SCALAR)
def get_distance(col1, col2):
    import pandas as pd
    distance_df  = pd.DataFrame({'column_A': col1, 'column_B': col2})
    distance_df['distance'] = distance_df.apply(lambda x: distance.get_jaro_distance(x['column_A'], x['column_B'], winkler = True, scaling = 0.1), axis=1)
    return distance_df['distance']

但是，Pandas df.apply方法没有向量化，这超出了我们在PySpark中在udf上需要pandas_udf的目的。一个更快，开销更少的解决方案是使用列表理解来创建返回的pd.Series（请检查link以获取有关Pandas df.apply及其替代品的更多讨论）：

from pandas import Series

@pandas_udf("float", PandasUDFType.SCALAR)
def get_distance(col1, col2):
   return Series([ distance.get_jaro_distance(c1, c2, winkler=True, scaling=0.1) for c1,c2 in zip(col1, col2) ])

df.withColumn('jaro_distance', get_distance('x', 'y')).show()
+---+---+---+-------------+
|  x|  y|  z|jaro_distance|
+---+---+---+-------------+
| AB| 1B|  2|         0.67|
| BB| BB|  4|          1.0|
| CB| 5D|  6|          0.0|
| DB|B7F|  8|         0.61|
+---+---+---+-------------+

在Pandas UDF PySpark中传递多列

问题描述投票：-1回答：1

1个回答

最新问题

在Pandas UDF PySpark中传递多列

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1