pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

Pysaprk 使用 groupBy() 和 colRegex

我尝试将 groupBy() 与 colRegex 结合起来 所以我想自动将所有带有后缀“B_”的列和最后一列“Prio”与最大值聚合。 但无论如何我尝试它都不起作用。

回答 1 投票 0

使用 Spark 引擎的 AWS Glue 批量处理

这是我的场景。 我有一个源数据库,它是带有 Postgresql 引擎的 aurora 数据库。我有一个名为付款的表。该表由数百万条记录组成,因此在每个 d 结束时...

回答 1 投票 0

处理管道分隔文件中的换行符

我们有一个50GB的文本文件,用竖线分隔(|),如下 第 1 列|第 2 列|列 umn3|第4列|第5列 值1|值2|值 3|值4|值5 所以挑战在于将其读入 pyspark datafr...

回答 1 投票 0

在apache Spark中创建增量表时出现问题

我正在apache Spark中创建一个增量表, 这是我的代码 导入pyspark 从 pyspark.sql 导入 SparkSession 从达美进口* 从 pyspark.sql.types 导入 StructType、StructField、StringType、

回答 1 投票 0

如何选择其中包含特殊字符的scala数据框列?

我正在读取一个json文件,其中的键是特殊字符。例如 [{ "ABB/aws:1.0/CustomerId:2.0": [{ “id”:20, “namehash”:...

回答 1 投票 0

Synapse Spark池:有一个空闲节点池,用于在调用后执行代码

我们在 Synapse Spark 池中是否也有类似 Databricks 集群池的选项?其中我可以在笔记本调用后立即让空闲节点执行代码。 谢谢 拉维

回答 1 投票 0

相似表的连接时间差异很大

我有下面描述的两张表。我通常将此表与另一个较小的表连接(内部连接)。然而,根据检查执行时间,表 2 大约需要 9 分钟,而......

回答 1 投票 0

多个 parquet 文件具有 1-2 列的不同数据类型

我正在尝试使用 Pyspark 将不同的镶木地板文件读入一个数据帧,但它给了我错误,因为多个镶木地板文件中的某些列具有不同数据类型的列。喜欢

回答 3 投票 0

在增量实时表中执行Spark sql

我是 DLT 新手,正在尝试掌握它。我写了下面的代码。我有两个流表(temp1 和 temp2)。我正在从这些表中创建两个视图。然后我将加入那些 vi...

回答 1 投票 0

在Scala中,如何在迭代每个Map键时执行精确的比较匹配?

最终,我的目标是迭代包含数千条记录的 Map,并将每个匹配键与具有数百列的 Dataframe 中的列名称进行比较。 我有一个数据...

回答 1 投票 0

执行 Group By - 单次迭代与两次迭代

当我们在 Spark 中执行 groupBy 时,它是否会将整个分组数据带到单个分区/执行器中,或者无论数据存在于哪个分区,它都会执行初始分组并最终带来所有唯一的

回答 1 投票 0

在 pyspark 中获取最高和最低工资员工姓名

我在 pyspark 中有以下场景..有人可以帮忙吗? 我有以下输入: 输入数据 = [(100,"ABC",2000),(100,"XYZ",1000),(100,"CDE",750),(200,"GYT",1500...

回答 1 投票 0

Pyspark - 没有名为coverage_daemon 的模块

我正在尝试在我的数据框中执行这个简单的代码: 导入 ast rddAlertsRdd = df.rdd.map(lambda 消息: ast.literal_eval(message['value'])) rddAlerts= rddAlertsRdd.collect() 但我得到了

回答 2 投票 0

在pyspark中向多级嵌套结构添加一列

我有一个具有以下结构的 pyspark 数据框。 当前架构: 根 |-- 身份证号 |-- 资讯 | |-- 姓名 | |-- 年龄 | |-- 性别 |-- 描述 我想添加名字和姓氏...

回答 3 投票 0

对大数据执行Distinct操作

当我们在Spark中对delta表或s3/gcs数据文件执行distinct操作时,它是否会像group by一样将整个数据拉到单个执行器中? 如果一个表的数据量很大,我们怎么办...

回答 1 投票 0

通过Python脚本在Databricks中使用spark

我正在尝试在databricks上部署streamlit应用程序。 为此,我使用命令: !streamlit run myApp.py 每次我尝试执行 getOrCreate 时,我都会从 databricks 收到错误,指出我无法创建...

回答 1 投票 0

无法从 Databricks 社区版安装 Azure ADLS Gen 2:com.databricks.rpc.UnknownRemoteException:发生远程异常

我正在尝试从我的databricks社区版安装ADLS Gen 2,但是当我运行以下代码时: 测试 = Spark.read.csv("/mnt/lake/RAW/csds.csv", inferSchema=True, header=True) 我...

回答 1 投票 0

PySpark:如何最有效地读取具有不同列位置的多个 CSV 文件

我正在尝试使用 Spark 以最有效的方式读取目录中的多个 CSV 文件。不幸的是,除了单独读取每个文件之外,我还没有找到更好的方法来做到这一点,

回答 1 投票 0

PySpark 函数处理性能较差的空值 - 需要优化建议

我有一个名为 fillnulls 的 PySpark 函数,它通过根据列类型填充适当的值来处理数据集中的空值。但是,我注意到该函数的执行...

回答 1 投票 0

如何在pyspark中的同一列上同时使用group by和order by

我是 pyspark 的初学者。我想知道如何在同一列上同时使用 order by 和 group by 。我的疑问如下。我的期望是以字母顺序显示 user_state...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.