如何删除变音符号在pyspark dataframes？

Question

我想知道如何与Python2删除变音符号在Pyspark数据帧。我需要这样的东西

from pyspark.sql.session import SparkSession
from pyspark import SparkContext
import pyspark.sql.functions as sf
from pyspark.sql.types import StringType

df = sc.parallelize([(u'pádlo', 1), (u'dřez', 4)]).toDF(['text', 'num'])

def remove_diacritics(s):
    return unidecode.unidecode(s)

rem_udf = sf.udf(remove_diacritics, StringType())

df.select(rem_udf('text'))

不幸的是，qazxsw POI模块是不是在你的集群可用。

有一些，我很想念除外手动更换所有可能字符的任何自然的解决方案？请注意，该预期的结果unidecode

Answer 1

您可以使用[padlo, drez]的模拟基于两个“字典”来代替字符：

SQL translate

它将从第一串的每个字符的每一次出现代替从第二串对应的字符。

如何删除变音符号在pyspark dataframes？

问题描述投票：0回答：1

1个回答

最新问题

如何删除变音符号在pyspark dataframes？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1