pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

通过Python脚本在Databricks中使用spark

我正在尝试在databricks上部署streamlit应用程序。 为此,我使用命令: !streamlit run myApp.py 每次我尝试执行 getOrCreate 时,我都会从 databricks 收到错误,指出我无法创建...

回答 1 投票 0

无法从 Databricks 社区版安装 Azure ADLS Gen 2:com.databricks.rpc.UnknownRemoteException:发生远程异常

我正在尝试从我的databricks社区版安装ADLS Gen 2,但是当我运行以下代码时: 测试 = Spark.read.csv("/mnt/lake/RAW/csds.csv", inferSchema=True, header=True) 我...

回答 1 投票 0

PySpark:如何最有效地读取具有不同列位置的多个 CSV 文件

我正在尝试使用 Spark 以最有效的方式读取目录中的多个 CSV 文件。不幸的是,除了单独读取每个文件之外,我还没有找到更好的方法来做到这一点,

回答 1 投票 0

PySpark 函数处理性能较差的空值 - 需要优化建议

我有一个名为 fillnulls 的 PySpark 函数,它通过根据列类型填充适当的值来处理数据集中的空值。但是,我注意到该函数的执行...

回答 1 投票 0

如何在pyspark中的同一列上同时使用group by和order by

我是 pyspark 的初学者。我想知道如何在同一列上同时使用 order by 和 group by 。我的疑问如下。我的期望是以字母顺序显示 user_state...

回答 1 投票 0

Spark jdbc 覆盖模式未按预期工作

我想使用spark执行更新和插入操作 请查找现有表格的图像参考 在这里,我更新 id :101 位置和插入时间并插入另外 2 条记录: ...

回答 6 投票 0

AWS Glue 工作室将 Pyspark 字符串列转换为日期返回 null

我有来自 S3 存储桶的数据,并且想要将日期列从字符串转换为日期。当前日期列的格式为 7/1/2022 12:0:15 AM。 我在 AWS Glue Studio 中使用的当前代码...

回答 3 投票 0

3、6、12 个月前间隔 pyspark

如何选择V1行3、6、12个月间隔 假设有如下表所示的表格 月 V1 202307 10 202306 20 202305 30 202304 40 202303 50 202302 60 202301 70 我想...

回答 1 投票 0

在 delta live 表中添加列元数据注释

我正在创建增量实时表,我想添加基于列的元数据注释。 下面是我的代码: @dlt.表( comment =“学生数据的扁平化表格”, 名称='

回答 1 投票 0

如何使用 pyspark 将不同的值放在一列中

我想将不同的值放在一列中 例如, 内华达州 问 值1 值2 值3 值4 234 1 10 0 0 0 234 2 0 15 0 0 234 3 0 0 20 0 234 4 0 0 0 25 根据 Q,值 1-4

回答 1 投票 0

pyspark.errors.exceptions.captured.IllegalArgumentException:输出列功能已存在

这是我下面的代码,我收到此错误“pyspark.errors.exceptions.captured.IllegalArgumentException:输出列功能已存在”我检查了其他帖子,但我不...

回答 1 投票 0

如何迭代 PySpark 分组数据中的行

我的数据格式是这样的: |编号 |地点|类型|日期|时间 | | 1 | 33 |出|2020-11-03| 08:35| | 1 | 34 |在 |2020-11-03| 08:37| | 1 | 33 |于|2020-11-03| 09:40| | 1 ...

回答 1 投票 0

如何在Python函数内更新pyspark数据框

我有一个Python函数,它接收pyspark数据帧并检查它是否具有脚本中使用的其他函数所需的所有列。特别是,如果缺少“体重”列,我想...

回答 1 投票 0

如何使用apache Spark和python创建嵌套对象

我在使用 apache Spark 和 python 创建嵌套对象时遇到问题。 我有以下数据框: GPS数据 根 |--vehicle_id:字符串(可空 = true) |-- Organization_id: 字符串 (

回答 1 投票 0

Spark sql 创建并引用映射/查找表,如 Qlik 的 applymap 函数

我正在 Azure Synapse Spark sql 笔记本中工作,我有一个查找表,其中包含主表中 15 个代码字段的显示值。我想避免将查找表加入...

回答 1 投票 0

pyspark - 这两个完整外连接有什么区别?

完整示例在这里。 我看到两种不同的输出,这两种方法在 pyspark 中的两个数据帧上进行完整的外部连接: 用户1_df。 \ 加入(users2_df,users1_df.email == users2_df.email,'

回答 1 投票 0

如何在Python中使用多线程来实现?

我是Python新手,我想了解如何使用多线程执行此操作,因为数据太大,此操作需要花费大量时间。 我在 Spark 中有大约 2500 多个列

回答 2 投票 0

在 pyspark 数据框中,我想根据窗口计算不同值

我有一个类似的数据框 计划 姓名 用户身份 美元 FWE QRS波 123 10 FWE QRS波 123 20 FWE QRS波 223 30 莱茵威 QRS波 223 40 在此输入图像描述 我想计算基于唯一 user_id 的数量...

回答 1 投票 0

处理 pyspark 中的动态列数(csv 文件)

我收到下面的 CSV 文件(没有标题)- D,neel,32,1,pin1,state1,公头 D,sani,31,2,pin1,state1,pin2,state2,女 D,raja,33,3,pin1,state1,pin2,state2,pin3,state3,男 我想创造...

回答 2 投票 0

Pyspark 如何避免顶部和嵌套结构中的组爆炸(代码优化)

问题 我想根据请求数据计算一些统计数据,这些数据按顶层中的值和嵌套层中的值分组。 explode-join和3x groupby的主要问题是大数据的代码(100G...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.