pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

Spark - 如何从数据框列中获取带有父文件夹的文件名

我使用 pyspark 作为代码语言。我添加了列来获取带有路径的文件名。 从 pyspark.sql.functions 导入 input_file_name data = data.withColumn("源文件",input_file_name()) 我想要

回答 3 投票 0

从 Pyspark 中的数据帧插入或更新增量表

我当前有一个 pyspark 数据框,我最初使用以下代码创建了一个增量表 - df.write.format("delta").saveAsTable("事件") 现在,由于上面的数据框

回答 3 投票 0

Pyspark:用最后一个值向前填充空值

我有一个与此类似的数据框: 值 = [ (“2019-10-01”,“004”,1.0), (“2019-10-02”,“005”,无), (“2019-10-03”、“004”、...

回答 2 投票 0

手动创建pyspark数据框

我正在尝试根据某些数据手动创建 pyspark 数据框: row_in = [(1566429545575348), (40.353977), (-111.701859)] rdd = sc.parallelize(row_in) 模式 = 结构类型( [

回答 7 投票 0

在pyspark中,如何过滤列表列至少有一个以子字符串开头的元素的行?

我有一个以下结构的数据框 姓名 IRC_列表 A [LLL、V23、VLX] 乙 [LSS、LX3、LLX] C [LSS、L12、VLX] 过滤后的表应该是: 姓名 IRC_列表 A [LLL、V23、VLX] C [LSS、L12、VLX] 乙

回答 1 投票 0

Delta 合并无法识别现有列

我正在处理的数据示例: 来源 +---------+--------------------+-------------+---- ----------------+--------------------+------------ --+----------------+ |store_id |类型 |

回答 1 投票 0

在 pyspark 中提取字符串中的模式

我有一个名为“rasm_4_Becv0_0_1234_rasm_3exm”的字符串 我想提取 pysaprk 中 Becv 之后的数字 0_0_1234。 我是使用 regex 的新手。谁能建议什么是常规的

回答 1 投票 0

Windows 拒绝识别 pyspark 安装

我使用“pip install pyspark”安装了pyspark,并且安装成功。但是,运行“spark --version”给我“spark”不被识别为内部或外部命令,可操作的专业人士...

回答 1 投票 0

通过基于另一个变量保留顺序来收集列表

我正在尝试在现有的一组列上使用 groupby 聚合在 Pyspark 中创建一个新的列表列。下面提供了一个示例输入数据帧: ------------------------ 编号 |日期...

回答 10 投票 0

如何使用pyspark将JSON插入雪花变体列

我有一个从 API 中提取的 JSON 数据。以下是该数据的示例: {“客户”:[{“id”:“123”,“名称”:“客户 ABC inc”}, {“...

回答 1 投票 0

如何在pyspark dataframe中使用窗口函数

我有一个 pyspark 数据框,如下所示: 邮件 sno mail_date date1 存在 [email protected] 790 2024-01-01 2024-02-06 是 [email protected] 790 2023-12-23 2023...

回答 1 投票 0

如何在 pyspark 中使用 varchar(50) 创建模式或在 pyspark 中转换为 varchar(50)

schema = StructType([StructField("列名", StringType(), True) 在我的列目标系统中,他们分配了 50 长度,并且我在数据块中创建了 StringType 模式,同时

回答 1 投票 0

如何在其他列定义的范围内生成随机数

我有一个包含两个整数列的数据框: 数据 = [("A",1, 5), ("B",3, 8), ("C",2, 7)] df = Spark.createDataFrame(data, ["类型","最小值", "最大值&...

回答 1 投票 0

如何根据主键从表中删除重复行?

我在 Dataframe 中加载了一个表,并且尝试将 groupBy 与 PK 一起使用。 df_remitInsert = Spark.sql("""从 trac_analytics.mainremitdata 中选择 *""") df_remitInsert_fil...

回答 1 投票 0

ModuleNotFoundError:运行 Delta Live Tables Python 笔记本时出现无名为“dlt”的模块错误

当尝试创建Python笔记本并按照设置databricks delta live表的各种示例进行操作时,如果您尝试运行y...

回答 3 投票 0

使用正则表达式清理邮政地址(spark regexp_extract)

我想剪掉一些地址的末尾: "1 rue de l'église" => "1 rue de l'église" "2 rue de la poste 公寓 B" => "2 rue de la poste" “3 4...

回答 1 投票 0


Pyspark - 将Json类型数据转换为表格形式

我在 pyspark 数据框中输入了如下所示的输入数据, 我想将其转换为表格形式,如下所示, 请帮助我,因为我对 pyspark 还很陌生。

回答 1 投票 0

PySpark 窗口函数:rangeBetween/rowsBetween 上的 orderBy 中的多个条件

是否可以创建一个窗口函数,它可以在 orderBy 中为 rangeBetween 或 rowsBetween 有多个条件。假设我有一个如下所示的数据框。 user_id 时间戳...

回答 2 投票 0

模糊逻辑来匹配数据框中的记录

我有 200 万个巨大的数据集,我想根据模糊逻辑匹配记录,我有我的原始数据框,例如 +--------+----------------+ |姓名|地址| +--------+---...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.