pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

Pysaprk 使用 groupBy() 和 colRegex

我尝试将 groupBy() 与 colRegex 结合起来所以我想自动将所有带有后缀“B_”的列和最后一列“Prio”与最大值聚合。但无论如何我尝试它都不起作用。

pyspark group-by

回答 1 投票 0

使用 Spark 引擎的 AWS Glue 批量处理

这是我的场景。我有一个源数据库，它是带有 Postgresql 引擎的 aurora 数据库。我有一个名为付款的表。该表由数百万条记录组成，因此在每个 d 结束时...

apache-spark amazon-s3 pyspark aws-glue batch-processing

回答 1 投票 0

处理管道分隔文件中的换行符

我们有一个50GB的文本文件，用竖线分隔（|），如下第 1 列|第 2 列|列 umn3|第4列|第5列值1|值2|值 3|值4|值5 所以挑战在于将其读入 pyspark datafr...

python linux pyspark

回答 1 投票 0

在apache Spark中创建增量表时出现问题

我正在apache Spark中创建一个增量表，这是我的代码导入pyspark 从 pyspark.sql 导入 SparkSession 从达美进口* 从 pyspark.sql.types 导入 StructType、StructField、StringType、

python sql apache-spark pyspark

回答 1 投票 0

如何选择其中包含特殊字符的scala数据框列？

我正在读取一个json文件，其中的键是特殊字符。例如 [{ "ABB/aws:1.0/CustomerId:2.0": [{ “id”：20， “namehash”：...

scala apache-spark pyspark

回答 1 投票 0

Synapse Spark池：有一个空闲节点池，用于在调用后执行代码

我们在 Synapse Spark 池中是否也有类似 Databricks 集群池的选项？其中我可以在笔记本调用后立即让空闲节点执行代码。谢谢拉维

pyspark azure-synapse azure-synapse-analytics

回答 1 投票 0

相似表的连接时间差异很大

我有下面描述的两张表。我通常将此表与另一个较小的表连接（内部连接）。然而，根据检查执行时间，表 2 大约需要 9 分钟，而......

apache-spark pyspark databricks

回答 1 投票 0

多个 parquet 文件具有 1-2 列的不同数据类型

我正在尝试使用 Pyspark 将不同的镶木地板文件读入一个数据帧，但它给了我错误，因为多个镶木地板文件中的某些列具有不同数据类型的列。喜欢

python pyspark schema parquet

回答 3 投票 0

在增量实时表中执行Spark sql

我是 DLT 新手，正在尝试掌握它。我写了下面的代码。我有两个流表（temp1 和 temp2）。我正在从这些表中创建两个视图。然后我将加入那些 vi...

pyspark databricks delta-lake delta-live-tables

回答 1 投票 0

在Scala中，如何在迭代每个Map键时执行精确的比较匹配？

最终，我的目标是迭代包含数千条记录的 Map，并将每个匹配键与具有数百列的 Dataframe 中的列名称进行比较。我有一个数据...

dataframe scala dictionary apache-spark pyspark

回答 1 投票 0

执行 Group By - 单次迭代与两次迭代

当我们在 Spark 中执行 groupBy 时，它是否会将整个分组数据带到单个分区/执行器中，或者无论数据存在于哪个分区，它都会执行初始分组并最终带来所有唯一的

scala apache-spark pyspark

回答 1 投票 0

在 pyspark 中获取最高和最低工资员工姓名

我在 pyspark 中有以下场景..有人可以帮忙吗？我有以下输入：输入数据 = [(100,"ABC",2000),(100,"XYZ",1000),(100,"CDE",750),(200,"GYT",1500...

pyspark

回答 1 投票 0

Pyspark - 没有名为coverage_daemon 的模块

我正在尝试在我的数据框中执行这个简单的代码：导入 ast rddAlertsRdd = df.rdd.map(lambda 消息: ast.literal_eval(message['value'])) rddAlerts= rddAlertsRdd.collect() 但我得到了

apache-spark pyspark

回答 2 投票 0

在pyspark中向多级嵌套结构添加一列

我有一个具有以下结构的 pyspark 数据框。当前架构：根 |-- 身份证号 |-- 资讯 | |-- 姓名 | |-- 年龄 | |-- 性别 |-- 描述我想添加名字和姓氏...

apache-spark pyspark apache-spark-sql

回答 3 投票 0

对大数据执行Distinct操作

当我们在Spark中对delta表或s3/gcs数据文件执行distinct操作时，它是否会像group by一样将整个数据拉到单个执行器中？如果一个表的数据量很大，我们怎么办...

scala apache-spark pyspark

回答 1 投票 0

通过Python脚本在Databricks中使用spark

我正在尝试在databricks上部署streamlit应用程序。为此，我使用命令： !streamlit run myApp.py 每次我尝试执行 getOrCreate 时，我都会从 databricks 收到错误，指出我无法创建...

pyspark databricks streamlit

回答 1 投票 0

无法从 Databricks 社区版安装 Azure ADLS Gen 2：com.databricks.rpc.UnknownRemoteException：发生远程异常

我正在尝试从我的databricks社区版安装ADLS Gen 2，但是当我运行以下代码时：测试 = Spark.read.csv("/mnt/lake/RAW/csds.csv", inferSchema=True, header=True) 我...

apache-spark pyspark databricks azure-data-lake-gen2 databricks-community-edition

回答 1 投票 0

PySpark：如何最有效地读取具有不同列位置的多个 CSV 文件

我正在尝试使用 Spark 以最有效的方式读取目录中的多个 CSV 文件。不幸的是，除了单独读取每个文件之外，我还没有找到更好的方法来做到这一点，

python csv apache-spark pyspark apache-spark-sql

回答 1 投票 0

PySpark 函数处理性能较差的空值 - 需要优化建议

我有一个名为 fillnulls 的 PySpark 函数，它通过根据列类型填充适当的值来处理数据集中的空值。但是，我注意到该函数的执行...

python apache-spark pyspark

回答 1 投票 0

如何在pyspark中的同一列上同时使用group by和order by

我是 pyspark 的初学者。我想知道如何在同一列上同时使用 order by 和 group by 。我的疑问如下。我的期望是以字母顺序显示 user_state...

pyspark apache-spark-sql

回答 1 投票 0

pyspark 相关问题

最新问题