如何删除变音符号在pyspark dataframes?

问题描述 投票:0回答:1

我想知道如何与Python2删除变音符号在Pyspark数据帧。我需要这样的东西

from pyspark.sql.session import SparkSession
from pyspark import SparkContext
import pyspark.sql.functions as sf
from pyspark.sql.types import StringType

df = sc.parallelize([(u'pádlo', 1), (u'dřez', 4)]).toDF(['text', 'num'])

def remove_diacritics(s):
    return unidecode.unidecode(s)

rem_udf = sf.udf(remove_diacritics, StringType())

df.select(rem_udf('text'))

不幸的是,qazxsw POI模块是不是在你的集群可用。

有一些,我很想念除外手动更换所有可能字符的任何自然的解决方案?请注意,该预期的结果unidecode

apache-spark-sql pyspark-sql diacritics
1个回答
1
投票

您可以使用[padlo, drez]的模拟基于两个“字典”来代替字符:

SQL translate

它将从第一串的每个字符的每一次出现代替从第二串对应的字符。

© www.soinside.com 2019 - 2024. All rights reserved.