我想知道如何与Python2删除变音符号在Pyspark数据帧。我需要这样的东西
from pyspark.sql.session import SparkSession
from pyspark import SparkContext
import pyspark.sql.functions as sf
from pyspark.sql.types import StringType
df = sc.parallelize([(u'pádlo', 1), (u'dřez', 4)]).toDF(['text', 'num'])
def remove_diacritics(s):
return unidecode.unidecode(s)
rem_udf = sf.udf(remove_diacritics, StringType())
df.select(rem_udf('text'))
不幸的是,qazxsw POI模块是不是在你的集群可用。
有一些,我很想念除外手动更换所有可能字符的任何自然的解决方案?请注意,该预期的结果unidecode